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本 书 是 一 本 优秀 的 编译 器 构造 方面 的 教材 ， 适 合 高 等 院 校 计 算 机 专业 的 学 生 及 专业 程序 
员 使 用 ,已 经 被 国际 上 多 所 大 学 或 学 院 选 作 教材 。 本 书 提供 了 创新 的 编译 器 构造 方法 ， 通 过 
大 量 的 示例 和 练习 ， 描 述 如 何 从 头 至 尾 设 计 一 个 可 用 的 编译 器 。 书 中 均衡 覆盖 了 编译 器 设计 
中 的 理论 与 实现 两 大 部 分 ， 详 细 讨 论 了 标准 编译 器 设计 的 相关 主题 (如 自 顶 向 下 和 自 底 向 上 
的 语法 分 析 、 语 义 分 析 、 中 间 表 示 和 代码 生成 )。 本 书 中 所 有 的 程序 均 采用 易 读 的 基于 C 语 言 
的 代码 来 表示 。 


本 书 特色 : 

e 均衡 讨论 了 编译 器 设计 的 理论 与 实现 两 大 部 分 ， 既 很 好 地 介绍 了 编译 器 理论 ;， 又 提 
供 了 大 量 的 编译 器 设计 示例 和 练习 。 

e 强调 使 用 可 以 生成 语法 分 析 器 和 词法 分 析 器 的 编译 器 工具 。 

© 彻 压 讨论 LR 语法 分 析 和 归 约 技术 。 

e 介绍 了 FLex 和 ScanGen 

e 在 每 章 末 尾 包含 可 选 的 高 级 主题 。 
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他 的 研究 兴趣 主要 包括 编译 器 设计 和 实现 等 : 
3 
介 


2 — e | 是 佐治 亚 理工 学 院 计算 学 院 的 教授 
Renard J. LeBlanc, Jf. ste CMRIEEE 计 站 机 这 
会 的 会 员 ， 他 的 研究 兴趣 主要 包括 软件 工程 、 编 程 语言 设计 和 实现 .编程 环境 等 ， 








AS 


PEARSON . ET + 
www.PearsonKd.com 








ISBN 7-111-16474-1 华章 网 站 http://www.hzbook.com 


| Ill | : E 网 上 购书 : www.china-pub.com | 
| ] : 投稿 热线 ， (010) 88379604 
MUTT Books 购书 热线 : (010) 68995259, 68995264 
| 读者 信箱 ，hzjsj@hzbook.com 
Q 11'16A474C€ ISBN 7-111-16474-1/TP + 4281 
9 "7871 164746 定价 ，65.00 元 








Charle N. Fischer i EE LeBlanc. J 


kx, Hp HE SC "E AE dl EAT fe 佐 [p FẸ 





rr iar i) 


本 书 均衡 讲述 了 编译 器 设计 中 的 理论 与 实现 两 大 部 分 ， 详 细 讨论 了 标准 编译 器 设计 的 
相关 主题 《如 目 顶 向 下 和 上 自 底 癌 上 的 语法 分 析 、 语 义 分 析 、 中 间 表 示 和 代码 生成 )， 提 供 了 
创新 的 编译 器 构造 方法 ， 使 读者 可 以 从 头 至 尾 地 学 习 如 何 设计 一 个 可 用 的 编译 器 。 

本 书 是 一 本 优秀 的 编译 器 构造 方面 的 教材 ， 适 合 于 高 等 院 校 计算 机 专业 的 学 生 和 使 用 
C 语 言 的 专业 程序 员 。 
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出 版 者 的 话 


文 乞 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 各 个 领域 取 
得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 辈出 、 独 领 风 又 。 在 
商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 学 科 中 的 许多 泰山 北斗 同时 身 处 科 
研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 划 了 研究 的 范畴 ， 还 揭 和 沫 了 学 术 的 源 变 ， 既 遵 
人 循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信 息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 益 迫 切 。 这 
对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 上 显得 举足轻重 。 在 我 
国信 息 技 术 发 展 时 间 较 短 、 从 业 人 员 较 少 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 发 展 的 几 十 年 间 积 
证 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 
发 展 起 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 图 文 信息 有 限 公 司 较 早 意识 到 “出 版 要 为 教育 服务 ”"。 自 1998 年 开始 ， 华 章 公 
司 就 将 工作 重点 放 在 了 六 选 、 移 译 国 外 优秀 教材 上 。 经 过 几 年 的 不 懈 努 力 ， 我 们 与 Prentice Hall, 
Addison-Wesley, McGraw-Hill, Morgan Kaufmann 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关系 ， 从 它们 
现 有 的 数 百 种 教材 中 查 选 出 Tanenbaum Stroustrup, Kernighan, Jim Gray 等 大 师 名 家 的 一 批 经 典 作品 ， 
以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 上 记 藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 
书 的 品位 和 格调 。 

计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 瞻 力 衷 助 ， 国 内 的 专家 不 仅 提供 了 中 肯 的 选 题 
指导 ， 还 不 辞 劳 苗 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 中 国 的 传播 ， 有 的 还 
专 诚 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 百 个 品种 ， 这 些 书 籍 在 读者 中 树立 
了 长 好 的 日 碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 ， 为 进一步 推广 与 发 展 打下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 步 人 一 
个 新 的 阶段 。 为 此 ， 华 章 公司 将 加 大 引进 教材 的 力度 ， 在 “华章 教育 ”的 总 规划 之 下 出 版 三 个 系列 的 计 
算 机 教材 : 除 “ 计 算 机 科学 丛书 ”之 外 ， 对 影印 版 的 教材 ， 则 单独 开辟 出 “经 典 原版 书库 ”; 同时 ， 引 
进 全 美 通行 的 教学 辅导 书 “Schaum's Outlines” 系 列 组 成 “全 美 经 典 学 习 指导 系列 ”。 为 了 保证 这 三 套 丛 
书 的 权威 性 ， 同时 也 为 了 更 好 地 为 学 校 和 老师 们 服务 ， 华章 公司 聘请 了 中 国 和 科学院、 北京 大 学 、 清 华 大 
学 、 国 防 科技 大 学 、 复 旦 大 学 、 上 海 交通 大 学 、 南 京 大 学 、 浙 江 大 学 、 中 国 科技 大 学 、 哈 尔 滨 工业 大 学 、 
西安 交通 大 学 、 中 国人 民 大 学 、 北 京 航空 航天 大 学 、 北 京 邮 电大 学 、 中 山大 学 、 解 放 军 理 工大 学 、 郑 州 
大 学 、 湖 北 工学 院 、 中 国 国 家 信息 安全 测评 认证 中 心 等 国内 重点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 的 
著名 学 者 组 成 “专家 指导 委员 会 "， 为 我 们 提供 选 题 意见 和 出 版 监督 。 

这 三 套 丛 书 是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 及 相关 专业 的 教学 度 身 
订 造 的 。 其 中 许多 教材 均 已 为 M. I. T., Stanford, U.C. Berkeley, C. M. U. 等 世界 名 牌 大 学 所 采用 。 不 
仅 涵盖 了 程序 设计 、 数 据 结构 、 操 作 系 统 、 计 算 机 体系 结构 、 数 据 库 、 编 译 原理 、 软 件 工程 、 图 形 学 、 
通信 与 网 络 、 离 向 数学 等 国内 大 学 计算 机 专业 普遍 开设 的 核心 课程 ， 而 且 各 具 特 色 一 一 有 的 出 自 语言 设 
计 者 之 手 、 有 的 历经 三 十 年 而 不 误 、 有 的 已 被 全 世界 的 几 百 所 高 校 采用 。 在 这 些 圆 熟 通 博 的 名 师 大 作 的 











指引 之 下 ， 读 者 必 将 在 计算 机 科学 的 宫殿 中 由 登 堂 而 入 宝 。 
权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 的 图 书 有 了 质 

量 的 保证 ， 但 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 教 材 的 出 
只 是 我 们 的 后 续 服务 的 起 点 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联 

系 方法 如 下 : 


电子 邮件 : 
联系 电话 : 
联系 地 址 : 
邮政 编码 : 


hzedu@hzbook.com 

(010) 68995264 
北京 市 西城 区 百 万 庄 南 街 1 号 
100037 


专家 指导 委员 会 
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译 者 序 


当今 计算 机 体系 结构 正 处 于 从 32 位 向 64 位 跨越 的 时 代 ， 除 了 硬件 本 身 的 革命 性 设计 之 外 ， 要 想 充 分 
发 挥 64 位 硬件 计算 平台 的 效率 并 以 此 提高 应 用 软件 的 性 能 ， 编 译 器 作为 现代 计算 机 中 最 重要 的 系统 软件 
之 一 ， 其 作用 是 无 可 替代 的 。 因 此 ， 编 译 器 的 原理 与 设计 应 该 是 计算 机 专业 学 生 所 必须 学 习 和 掌握 的 一 
门 重 要 的 专业 基础 课 。 尽 管 最 终 从 事 编译 器 构造 这 种 浩 繁 而 艰巨 的 工程 的 人 只 是 少数 ， 但 通过 对 编译 器 
原理 的 学 习 、 对 其 设计 技巧 的 掌握 ， 可 以 使 学 生 对 诸如 程序 设计 语言 、 数 据 结 构 和 算法 设计 与 分 析 等 诸 
多 计算 机 专业 基础 课程 有 更 加 深入 的 理解 与 体会 。 通 过 对 编译 性 这 个 沟通 软 硬 件 的 “翻译 ”桥梁 角色 的 
认识 ， 还 可 以 让 学 生 对 计算 机 软 、 硬 件 的 相互 依存 、 相 互 支持 的 关系 有 更 进一步 的 领悟 与 洞察 。 而 这 一 
切 的 获得 往往 开始 于 选择 一 本 好 的 教材 、 一 本 有 益 的 参考 书 。 可 以 这 么 说 ， 好 的 选择 是 成 功 道路 上 坚实 
的 第 一 步 。 

由 Charles N. Fischer 和 Richard J. LeBlanc, Jr 两 位 教授 合 著 的 本 书 就 是 一 本 这 样 的 书 。 本 书 中 文 版 
的 第 一 译 者 最 时 在 11 年 前 就 接触 了 本 书 的 原版 ， 从 中 受益 并 采 报 了 部 分 知识 用 于 当时 的 科研 工作 ， 之 
后 在 中 国 科学 技术 大 学 多 次 讲授 “编译 原理 与 技术 ”课程 时 也 就 一 直 把 它 作 为 重要 的 不 可 或 缺 的 教学 
参考 书 。 

正如 本 书 的 书 名 首先 让 人 想到 的 ， 它 是 一 本 告诉 人 们 如 何 用 C 语 言 去 实际 地 构造 编译 器 的 书 ， 这 
正 是 本 书 的 最 大 特色 一 一 完美 而 均衡 地 和 覆盖 了 编译 器 的 理论 和 实现 的 相关 议题 。 本 书 使 读者 在 阅读 
深奥 而 枯燥 的 理论 的 同时 ， 又 能 享受 精妙 而 细致 的 实现 ， 虽 精巧 但 又 不 落 于 旁 支 细 节 ， 既 可 信 手 持 
来 又 给 人 以 启迪 与 思考 的 空间 ， 在 精彩 或 重要 之 处 作者 更 是 不 惜 笔 墨 。 另 外 ， 本 书 还 是 一 本 编译 器 
构造 理论 方面 的 有 价值 的 专著 ， 书 中 不 乏 围 绕 构 造 一 个 编译 器 而 进行 的 系统 全 面 、 内 容 详实 的 理论 | 
介绍 。 全 书 正文 共 分 17 章 ， 其 中 包括 了 从 最 基本 的 词法 分 析 到 语法 分 析 ， 再 到 语义 处 理 、 运 行 时 存 
储 环境 、 代 码 生 成 和 代码 优化 ， 从 符号 表 的 组 织 到 程序 错误 的 处 理 等 编译 器 各 个 典型 的 组 成 部 分 的 


.周到 的 分 析 与 讨论 ; 所 涉及 的 程序 设计 语言 从 较 早 期 的 Algol 60、Modula-2 到 美国 国防 部 专用 的 、 





功能 丰富 但 也 十 分 复杂 的 Ada 语 言 ， 从 简单 的 Pascal 语 言 到 灵活 的 C 语 言 ， 再 到 时 下 流行 的 专业 程序 
员 首 选 的 C++ 语言 等 。 

尽管 本 书 反映 的 是 截止 到 20 世 纪 90 年 代 初 期 的 研究 成 果 ， 但 它 精辟 的 理论 分 析 和 细致 的 实现 描述 却 
有 力 地 影响 着 后 来 的 编译 器 的 设计 与 实现 。 本 书 译 者 曾 在 某国 际 著名 软件 公司 的 商用 编译 器 所 生成 的 目 
标 代码 中 看 到 了 本 书 所 介绍 的 优化 编译 技术 的 踪影 。 对 于 这 本 内 容 丰 富 、 理 论 与 实践 交融 的 专著 ， 我 们 
有 理由 相信 它 会 成 为 对 编译 器 感 兴趣 并 有 着 不 同 需求 的 读者 们 的 良师益友 。 

本 书 中 文 版 的 翻译 工作 由 郑 启 龙 和 姚 震 完成 。 其 中 : 姚 震 负责 完成 前 言 、 第 1 章 ~ 第 7 章 、 附 录 A - 
附录 E 的 翻译 工作 ， 郑 启 龙 负责 第 8 章 ~ 第 17 章 的 翻译 工作 并 校对 了 全 部 译 稿 。 

本 书 是 两 位 译 者 第 一 次 翻译 国外 计算 机 专业 著作 ， 由 于 水 平 有 限 ， 加 之 时 间 仓 促 ， 其 中 难免 有 这 样 
或 那样 的 错误 与 不 当 之 处 ， 肪 请 各 位 读者 批评 指正 。 


AL BRE 
2005 年 4 月 于 
中 国 科 学 技术 大 学 
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本 书 以 作者 实现 编译 器 和 开发 编译 器 构造 课程 的 经 验 为 基础 ， 介 绍 了 编译 器 构造 的 实际 方法 。 其 宗 
下 契 使 读者 不 仅 能 够 对 编译 器 的 所 有 组 件 有 深入 的 理解 ， 而 且 能 够 对 编译 器 的 各 组 件 如 何 实际 组 合 、 构 
成 一 个 可 以 工作 的 编译 器 有 感性 认识 。 我 们 相信 这 种 理念 是 本 书 一 个 与 众 不 同 的 特色 。 因 为 我 们 专注 于 
对 现代 编译 器 构 舍 技术 的 介绍 ， 所 以 强调 尽 可 能 地 使 用 编译 器 工具 生成 编译 器 的 组 件 。( 附 录 B ~F 中 所 
述 工具 的 源 代 码 ， 可 以 从 出 版 社 网 站 下 载 。) 

本 书 和 Crafting a Compiter 一 书 基本 相同 ， 只 是 其 中 的 算法 和 伪 代 码 示例 使 用 C 而 不 是 Ada 语 法 。 由 
于 C 语 言 在 编译 器 课程 中 广泛 使 用 ， 因 此 许多 教师 认为 这 样 的 版 本 会 很 有 价值 。 为 使 所 有 伪 代 码 即使 对 
于 那些 不 是 C 语 言 专家 的 读者 也 尽 可 能 易 读 ， 我 们 使 用 了 一 些 标 准 C 语 法 的 扩展 (在 下 面 描述 )， 而 且 并 
不 总 是 使 用 通用 的 C 语 言 惯用 法 。 由 于 本 书 作 者 均 不 是 熟练 的 C 程 序 员 ， 因 此 我 们 感谢 Arnold Robbins 对 
本 书 做 了 从 Ada 语 言 到 C 语 言 的 转换 工作 ， 并 给 出 很 多 编辑 上 的 建议 。 


教科 书 和 参考 书 


作为 教学 用 书 ， 本 书 主要 面向 近 15 年 来 我 们 开发 的 一 种 课程 组 织 结构 。 但 是 ， 本 书 的 使 用 可 以 非 
常 灵活 ， 已 经 用 于 从 为 期 10 周 的 3 学 分 高 年 级 本 科 生 课程 到 为 期 3 个 月 的 6 学 分 研究 生 课程 教学 中 。 本 书 
也 可 作为 一 本 有 价值 的 专业 参考 书 ， 因 为 它 完整 禾 盖 了 对 编译 器 编写 者 和 设计 者 有 着 重要 实际 意义 的 
技术 。 
课程 设计 方法 

本 书 全 面 地 用 盖 了 与 构造 编译 器 相关 的 理论 主题 。 而 且 ， 一 个 密切 相关 的 课程 设计 实现 也 是 我 们 课 
程 组 织 的 重要 组 成 部 分 。 因 此 ， 本 书 也 是 面向 课程 设计 的 。 附 录 人 A 包含 一 个 称 为 Ada/CS 的 语言 定义 ， 它 
主要 是 Ada 程 序 设计 语言 的 一 个 重要 子 集 。 但 出 于 教学 目的 ， 这 里 介绍 的 Ada/CS 并 非 Ada 程 序 设计 语言 
的 一 个 严格 子 集 。 针 对 使 用 本 书 的 课程 ， 我 们 建议 的 课程 设计 可 以 涉及 部 分 或 完整 的 Ada/CS 实 现 ， 具 体 
情况 要 根据 课程 的 长 度 、 层 次 以 及 授课 教师 的 要 求 来 定 。 

本 书 第 2 章 介 绍 并 讨论 一 个 针对 非常 简单 的 Ada/CS 子 集 的 递归 下 降 编 译 器 。 将 上 述 课程 设计 实施 为 
该 编译 器 的 扩充 ， 可 以 让 学 生 即 使 在 短 到 一 个 学 期 的 课程 中 也 能 完成 一 个 较 大 的 课程 设计 。 在 时 间 充裕 
的 情况 下 ， 这 种 扩充 方法 同样 有 价值 。 要 求学 生 阅读 并 扩充 一 个 实际 的 程序 ， 可 使 他 们 获得 在 许多 计算 
机 科学 课程 中 难以 得 到 的 重要 经 验 。 这 也 教会 他 们 如 何 将 编译 器 的 各 部 分 组 合 起 来 ， 而 这 种 知识 是 难以 
用 其 他 任何 方式 来 讲授 的 。 


C 程 序 设 计 语言 

”本 书 中 的 示例 伪 代 码 采用 基于 ANSI C 的 语法 编写 。 从 PC 机 到 大 型 机 直到 超级 计算 机 ，C 语 言 在 许 
多 计算 环境 中 都 是 流行 的 语言 ， 它 小 巧 且 富 于 表达 力 、 高 效 ， 同 时 通常 具有 很 好 的 可 移植 性 。C 语 言 
近 已 成 为 美国 国家 标准 (ANSI 1989)。 支 持 标准 C 语 法 的 编译 器 也 已 广泛 可 用 ， 而 且 将 会 更 加 普及 。 


此 ， 我 们 选择 为 示例 程序 使 用 ANSI 语 法 而 不 是 在 Kernighan and Ritchie (1978) 中 描述 的 更 广为人知 的 
语法 。 而 Kernighan 和 Ritchie 的 新 书 (1988) 则 是 ANSI C 的 优秀 参考 书 。 
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为 了 将 算法 尽 可 能 以 最 易 读 的 方式 描述 〈 而 不 关注 语法 细节 ) ， 我 们 以 几 种 方式 扩充 了 C 语 言 。 首 
先 ， 在 正文 的 几 个 地 方 使 用 了 匿名 联合 (anonymous union), 该 特性 借用 自 C++ (Stroustrup 1986). — 
个 匿名 联合 看 起 来 像 这 样 : | 


struct somestruct | 
int eleml; 


s.elemi - 10; 
s.f2 - 10.0 
注意 : 该 结构 的 union 成 员 没 有 名 字 ， 联 合 中 的 元 素 作为 结构 的 元 素 被 直接 引用 。 在 传统 的 C 语 言 
中 ， 同 样 的 行为 通常 通过 宏 预 处 理 器 获得 : 
struct somestruct { 
int eleml; 
union { 


float u f2 ; 
int u i2; 


long elem3; 
fdefine f2 u.u f2 
#define i2 u.u i2 
idefine d2 u.u d2 
#define 12 u.u 12 
。 elem! z 10; 
s.£2 = 10.0 
其 次 ， 从 第 10 章 开始 ， 使 用 匿名 结构 (anonymous structure) 作为 匿名 联合 的 成 员 。 实 际 编程 中 ， 
这 些 结构 需要 通过 上 面 描述 的 预 处 理 器 方案 实现 。 
最 后 ， 在 许多 高 层 伪 代 码 示例 中 ， 使 用 下 列 构造 函数 (constructor) 机 制 来 创建 结构 表达 去 : 


struct something { 
int eleml; 
char *elem2; 
) v; 
v = (something) { 
.eleml = 1; 
.elem2 = "string": 
}; 


尽管 这 种 结构 不 能 使 用 宏 来 代替 ， 但 其 含义 显而易见 。 
__ 般 情况 下 ， 在 使 用 高 层 伪 代 码 而 不 是 正规 C 语 言 时 ， 我 们 将 这 些 图 标记 为 “算法 ”而 不 是 “程序 ”。 
与 Crafting a Compiler 一 样 ， 在 使 用 本 书 的 课程 中 不 必 使 用 任何 特定 的 语言 来 实现 课程 设计 。 不 论 
洗 树 哪 种 实现 语言 ， 伪 代码 都 是 极 佳 的 设计 描述 手段 。 此 外 ， 我 们 提供 的 词法 分 析 器 和 语法 分 析 器 生成 
工具 生成 的 是 表格 而 不 是 程序 ， 因 此 它们 可 用 于 任何 语言 环境 中 。 为 了 那些 使 用 C 语 言 实现 课程 设计 的 
读者 ， 我 们 也 讨论 Lex 和 Yacc 的 使 用 。 | | 


Ada 的 角色 
我 们 所 建议 的 课程 设计 和 对 语言 特性 的 讨论 都 基于 Ada 语 言 ， 因 为 它 事实 上 包含 了 在 语义 分 析 部 分 
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我 们 希望 讨论 的 所 有 语言 特性 。 假 如 选择 任何 其 他 语言 作为 基础 〈 例 如 Modular-2) ， 就 必须 描述 很 多 扩 
充 以 讨论 编译 这 些 东 西 (比如 exit 语 句 、 异 常 处 理 和 操作 符 重 载 ) 的 技术 。 

使 用 本 书 的 学 生 当然 不 必 熟 悉 Ada 语 言 。 附 录 A 中 的 Ada/CS 介 绍 可 以 作为 在 语义 分 析 部 分 所 讨论 的 
Ada 语 言 特 性 的 教程 。 在 适当 的 情况 下 ， 我 们 也 考虑 从 其 他 语言 (包括 Modula-2、 Pascal、C、ALGOL- 
60、ALGOL-68 以 及 Simula) 中 抽取 的 语言 特性 的 翻译 。 


各 章 描 述 


本 书 作为 入 门 课程 ， 可 以 讲授 第 1 ~ 4 章 、 第 5 章 或 第 6 章 、 第 7 章 以 及 第 8 ~ 13 章 和 第 15 章 的 部 分 
内 容 。 
本 书 作为 高 级 课程 ， 可 以 包含 讲述 语法 分 析 的 各 章 (第 5 ~ 6 章 ) 的 内 容 ， 以 及 第 8 ~ 13 章 和 第 15 章 
加 上 第 14、16 和 17 章 的 高 级 主题 部 分 。 


第 1 章 绪论 
在 本 书 的 一 开始 概述 编译 过 程 ， 强 调 从 一 组 组 件 构造 编译 器 的 概念 ， 介绍 使 用 工具 生成 其 中 一 些 组 
件 的 思想 。 


第 2 章 一 个 简单 编译 器 
介绍 一 个 非常 简单 的 语言 Micro， 讨 论 编译 Micro 的 编译 器 的 每 个 组 件 。 本 章 包含 Micro 编 译 器 的 部 
分 文本 (用 Ada 语 言 编写 )。 而 对 更 全 面 的 Ada 子 集 的 语言 特性 的 编译 则 引出 了 以 下 各 章 所 介绍 的 技术 。 


第 3 章 词法 分 析 一 一 理论 与 实践 
介绍 构造 编译 器 词法 分 析 组 件 的 基本 概念 和 技术 。 本 章 中 的 讨论 既 包 括 开发 手写 的 词法 分 析 器 ， 又 
包括 使 用 词法 分 析 器 生成 工具 实现 表 驱 动 的 词法 分 析 严 。 


第 4 章 “文法 和 语法 分 析 

介绍 形式 语言 概念 和 文法 的 基本 知识 ， 包 括 上 下 文 无 关 文 法 、BNE 表 示 法 、 推 导 和 语法 分 析 树 。 Hi 
于 在 自 顶 向 下 和 自 底 向 上 的 语法 分 析 技术 的 定义 中 都 用 到 First 和 Follow 集 ， 本 章 也 对 它们 进行 了 定义 。 
本 章 还 包括 对 语言 和 文法 关系 的 讨论 。 


第 5 章 LL(1) 文 法 及 分 析 器 . | | 
介绍 语法 分 析 的 第 一 种 方法 一 一 自 顶 向 下 的 语法 分 析 。 讨 论 递归 下 降 和 LL(D)， TAREHE. W 
法 分 析 器 生成 器 的 使 用 是 本 章 的 重点 。 


第 6 章 LR 分 析 
介绍 另 一 种 语法 分 析 方 法 一 一 自 底 向 上 的 语法 分 析 。 介 绍 LR、 SLR 和 LALR 语 法 分 析 概 念 及 其 与 LL 
技术 的 比较 。 语 法 分 析 器 生成 器 的 使 用 也 是 本 章 的 重点 。 | 


第 7 章 语义 处 理 

本 但 结合 自 顶 向 下 和 自 底 向 上 语法 分 析 器 来 介绍 语义 处 理 的 基本 原理 。 主 题 包括 : 不 同 编译 器 组 织 
方式 的 比较 ，( 在 自 顶 向 下 的 语法 分 析 中 ) 向 文法 增加 动作 符号 ，( 在 自 底 向 上 的 语法 分 析 中 ) 为 “语义 
Hj" (semantic hook) 重 写 文法 ， 定 义 语义 记录 和 使 用 语义 栈 ， 检 查 语义 正确 性 ， 产 生 中 间 代 码 。 


第 8 章 符号 表 
本 音 强 调 符号 表 的 使 用 ， 它 作为 一 个 抽象 组 件 由 编译 器 的 其 他 组 件 通 过 精确 定义 的 接口 使 用 。 本 章 
介绍 其 可 能 的 实现 ， 随 后 讨论 用 符号 表 处 理 嵌 套 的 作用 域 和 其 他 用 来 定义 可 从 外 图 作 用 域 《 例 如 记录 和 和 
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Ada 中 的 包 ) 访问 的 名 字 的 语言 特性 。 
第 9 章 运行 时 存储 组 织 
介绍 运行 时 存储 管理 的 基本 技术 ， 包 括 静 态 分 配 、 基于 栈 的 分 配 和 一 般 动态 《 准 ) 分 配 的 讨论 。 


第 10 章 处 理 声明 
讨论 处 理 类 型 、 变 量 和 常量 声明 的 基本 技术 。 这 些 内 容 的 组 织 基 于 处 理 特定 语言 特性 的 语义 例 程 。 


PILE 处 理 表达 式 和 数据 结构 引用 
概述 处 理 变量 引用 和 算术 、 布 尔 表 达 式 的 语义 例 程 。 在 对 变量 引用 的 讨论 中 ， 包 括 针对 数组 元 素 和 
记录 域 的 地 址 计算 方法 。 在 本 章 及 随后 两 章 中 ， 强 调 检 查 语义 正确 性 和 产生 被 目标 代码 生成 器 使 用 的 中 
间 代 码 的 技术 。 


第 12 章 翻译 控制 结构 

本 章 的 重点 是 针对 像 计 语 句 、case 语 句 和 各 种 循环 结构 等 特性 的 编译 技术 。 强 调 使 用 语义 栈 或 语法 
树 简 化 这 些 结构 的 处 理 。 这 些 结构 可 以 碳 套 并 扩展 到 任意 规模 的 程序 文本 中 。 学 生 应 通过 特定 的 方法 来 
了 解 这 种 通用 技术 的 优点 。 

第 13 章 “翻译 过 程 和 函数 

介绍 处 理子 程序 声明 和 调用 的 技术 。 由 于 这 个 主题 的 很 多 复杂 性 涉及 参数 ， 本 章 提供 了 很 多 材料 来 
讲述 创建 参数 描述 、 检 查 子 程序 调用 中 实际 参数 的 正确 性 以 及 不 同 参 数 模 式 所 需 的 代码 生成 技术 。 这 里 
讨论 运行 时 活动 栈 的 概念 ， 给 出 实现 它 所 必需 的 支持 例 程 。 


HAE 属性 文法 和 多 遍 翻 译 
多 记 翻 译 由 遍历 中 间 代 码 形式 模拟 。 本 章 强调 信 息 流 的 属性 模型 。 


第 15 章 ”代码 生成 和 局 部 代码 优化 
介绍 代码 生成 器 , 它 作为 一 个 独立 组 件 ， 将 语义 例 程 生成 的 中 间 代码 翻译 为 编译 器 最 终 的 目标 代码. 
介绍 像 指令 选择 、 寄 存 器 管理 和 寻 址 模式 的 使 用 等 主题 。 SGEGUSTEAORULTCISTEYR 


第 16 章 全 局 优化 
本 音 的 焦点 是 那些 通过 适度 的 努力 可 以 生成 有 用 代码 改进 的 实用 技术 。 因此 ， 本 章 的 主要 部 分 包括 
全 局 数据 流 分 析 、 优 化 子 程序 调用 和 优化 循环 。 


PITE 现实 世界 中 的 语法 分 析 

本 章 包 括 实现 一 个 实际 编译 器 必需 的 两 个 主要 课题 ， 语 法 错误 处 理 和 表 压缩 。 错 误 处 理 部 分 介绍 
用 于 递归 下 降 、LL 和 LR 分 析 器 的 错误 恢复 和 错误 修复 技术 。 表 压缩 技术 用 于 LL 和 LR 分 析 器 ， 以 及 间 
法 分 析 器 表 和 任何 其 他 需要 用 快速 访问 稀疏 表 中 的 元 素来 高 效 存储 的 场合 。 
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1.1 概述 和 历史 


编译 器 是 现代 计算 技术 的 基本 组 成 部 分 。 它 们 担任 翻译 器 (translator) 的 角色 ， 将 面向 人 的 程序 设 
Hè (programming language) 转换 成 面向 计算 机 的 机 器 语言 (machine language)。 对 于 大 多 数 用 户 
来 说 ， 编 译 器 可 以 被 看 作 是 一 个 “黑箱 ”， 执 行 图 1-1 所 示 的 转换 。 


程序 设计 语言 | ! 机 器 语言 
n | S > (Hi) 


图 1-1 用 户 眼 中 的 编译 器 


编译 器 事实 上 人 允许 所 有 计算 机 用 户 忽 上 略 与 机 器 相关 的 机 器 语言 细节 。 因 此 ， 编 译 器 允许 程序 和 程序 
设计 的 专业 技术 成 为 与 机 器 无 关 的 (machine-independent)。 在 计算 机 的 数量 和 种 类 持续 爆炸 性 增长 的 
有 时代， 这 是 一 项 特别 有 价值 的 优点 。 

术语 编译 器 (compiler) 是 在 20 世 纪 50 年 代 早期 由 Grace Murray Hopper 创 造 。 那 时 翻译 被 看 作 是 
“编译 ”一 系列 从 程序 库 中 选 出 的 子 程序 。 实 际 上 ， 编 译 (正如 我 们 现在 所 知道 的 ) 那 时 就 被 称 为 “ 自 
动 程序 设计 ”， 而 对 它 究竟 成 功 与 否 却 存在 着 普遍 的 怀疑 。 今 天， 程序 设计 语言 的 自动 翻译 已 经 是 一 个 
既成 事实 ， 但 程序 设计 语言 翻译 器 仍 被 称 为 编译 器 。 

现代 意义 上 的 最 早 的 真正 编译 器 是 20 世 纪 50 年 代 晚期 的 FORTRAN 编 译 器 。 它 们 为 用 户 提 供 了 一 个 
面向 问题 的 、 与 机 器 密切 相关 的 源 语言 ， 并 执行 一 些 相 当 有 挑战 性 的 “优化 ”以 产生 高 效 的 机 器 代码 。 
而 这 种 优化 对 于 成 功 地 和 当时 占 统治 地 位 的 汇编 语言 进行 竞争 来 说 是 必要 的 。 这 些 FORIRAN 系 统 证 明了 
经 过 编译 的 高 级 ( 即 较 少 依赖 机 器 的 ) 语言 的 生命 力 ， 并 为 随后 语言 和 编译 器 的 大 量 涌现 铺 平 了 道路 。 

第 一 个 FORTRAN 编 译 器 花费 了 18 个 人 年 来 构造 。 早 期 的 编译 器 都 是 专用 结构 ， 组 件 和 技术 通常 随 
着 编译 器 的 构造 而 被 发 明 出 来 。 构 造 编译 器 是 一 项 复杂 和 代价 高 昂 的 工作 。 今 天 ， 编 译 技术 已 被 很 好 地 
理解 ， 一 个 简单 的 编译 器 可 以 在 几 个 月 中 构造 出 来 。 尽 管 如 此 ， 构 造 高 效 可 靠 的 编译 器 仍然 是 一 项 富有 
挑战 性 的 任务 。 我 们 的 方法 是 掌握 编译 的 基本 原理 ， 随 后 研究 高 级 主题 以 及 许多 新 近 发 明 的 重要 的 技术 
革新 。 | | 

通常 认为 编译 器 是 将 程序 设计 语言 翻译 为 机 器 语言 指令 。 然 而 ， 编 译 器 技术 是 广泛 适用 的 并 已 经 用 
于 许多 过 去 未 曾 预 料 到 的 领域 。 例 如 ， 文 本 格式 化 语言 已 经 变 得 日 益 复杂 。 格 式 化 程序 (formatter), 
像 UNIXe 的 mroffF 和 troff， 实 际 上 就 是 编译 器 ， 它 们 将 文本 和 格式 化 命令 翻译 为 非常 复杂 的 排版 命令 。 像 
所 有 成 功 的 语言 一 样 ，nroff 和 troff 已 被 推广 ， 用 来 提供 新 的 功能 。 例 如 ， 像 eqn〔( 用 来 处 理 公式 )、wwi 
(用 来 格式 化 表格 ) 和 pic (用 来 绘制 图 形 ) 这 样 的 预 处 理 器 包 非 常 类 似 于 通常 用 来 扩展 现 有 程序 设计 语 
言 的 预 处 理 器 (例如 ，Ratfor FORTRAN 预 处 理 器 )。 程 序 设 计 语 言 和 编译 器 设计 的 持续 挑战 之 一 就 是 发 
明 人 允许 用 简单 且 自 然 的 方式 扩展 现 有 语言 的 机 制 。 

创建 VLSI 电 路 是 另 一 项 可 以 被 建 模 为 从 高 级 源 语言 到 低级 目标 语言 的 翻译 任务 。 在 此 情形 中 ， 硅 
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编译 器 〈silicon compiler) $&42E VLSI HL PR HEBES AG FJ ASE JC. LCS EJ AREE i 2B FE el ST EF 
殊 的 机 器 语言 规则 一 样 ， 硅 编译 器 必须 理解 并 强制 遵守 给 定 电路 的 可 行 性 设计 规则 。 

编译 器 技术 几 平 在 任何 提供 非 平凡 命令 集 的 程序 (包括 操作 系统 的 命令 语言 和 数据 库 系统 的 查询 话 
言 ) 中 都 是 有 价值 的 。 尽 管 我 们 的 讨论 将 集中 于 传统 的 编译 任务 ， 但 有 创新 精神 的 读者 无 疑 会 为 这 里 所 
介绍 的 技术 找到 新 的 未 曾 预 料 到 的 应 用 。 


1.2 编译 器 可 以 做 什么 


图 1-1 显 示 一 个 编译 器 ， 它 作为 一 个 翻译 器 将 被 编译 的 程序 设计 语言 翻译 为 某 种 机 器 语言 。 该 描 
述 上 暗示 所 有 编译 器 做 着 相当 多 的 同样 事情 ， 惟 一 的 区 别 是 它们 对 源 语言 和 目标 语言 的 选择 。 然 而 ， 实 
际 情况 比 这 更 复杂 。 接 受 源 语言 的 问题 事实 上 比较 简单 ， 但 编译 器 的 输出 却 可 用 许多 其 他 的 方法 加 以 
描述 ， 这 些 方法 远 非 像 命名 在 其 上 产生 输出 的 特定 计算 机 那样 简单 。 

编译 器 可 以 根据 它们 试图 生成 的 目标 代码 类 型 来 分 类 : 

(1) 纯 机 器 代码 (Pure Machine Code) 

首先 ， 编 译 器 可 以 为 特定 机 器 的 指令 集 生成 代码 ， 而 不 假定 存在 任何 操作 系统 或 库 例 程 。 这 种 机 器 
代码 通常 被 称 为 纯 代 码 ， 因 为 它 仅 包含 指令 集中 的 指令 。 这 种 方式 较 少 采用 ; 它 大 多 用 于 系统 实现 语言 
的 编译 器 中 ， 这 些 语言 用 来 实现 加 操作 系统 和 其 他 像 这 样 的 低级 软件 ，。 这 种 形式 的 目标 代码 可 以 不 依赖 于 
任何 其 他 软件 而 直接 在 硬件 上 执行 

(2) 拓 广 的 机 器 代码 (Augmented Machine Code ) 

其 次 ， 更 通常 的 情况 是 ， 编 译 器 为 由 操作 系统 例 程 和 语言 支撑 例 程 所 拓 广 的 机 器 体系 结构 生成 机 器 
代码 。 为 执行 一 个 由 这 样 的 编译 器 生成 的 程序 ， 在 目标 机 器 上 必须 有 特定 的 操作 系统 ， 而 且 必 须 与 程序 
-起 加 载 一 组 语言 特定 的 支撑 例 程 〈 输 入 /输出 、 存 储 分 配 、 数 学 函数 等 )。 目标 机 器 的 指令 集 与 这 些 操 
作 系 统 和 语言 支撑 例 程 的 组 合 被 认为 是 定义 了 一 个 虚拟 机 (virtual machine) 即 ， 另 一 台 仅 作为 硬 
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虚拟 机 与 实际 的 机 器 相 匹 配 的 程度 可 能 变化 很 大 。 茶 些 一 _ 般 的 编译 器 将 源 代码 几乎 完全 翻译 为 硬件 
指令 (例如 ， 大 多 数 FORTRAN 编 译 器 仅 对 输入 /输出 和 数学 函数 使 用 软件 支持 )。 其 他 编译 器 则 采用 大 量 
的 虚拟 指令 。 这 些 虚 拟 指令 可 能 包括 : 数据 传输 指令 (例如 ， 用 来 移动 位 域 )、 过 程 调 用 指令 (用 来 传递 
参数 、 保 存 寄存 器 、 分 配 栈 空间 等 ) 以 及 动态 存储 分 配 指令 。 

(3) 虚拟 机 器 代码 (Virtual Machine Code) 

最 后 ， 虚 拟 机 定义 的 极端 情况 代表 最 终 的 目标 机 器 选择 。 生 成 的 代码 完全 由 虚拟 指令 组 成 。 该 方法 
作为 产生 能 够 容易 地 运行 在 多 种 计算 机 上 的 可 移植 编译 器 的 技术 ， 尤 其 具有 吸引 力 。 和 KA 
可 移植 性 ， 因 为 移植 编译 器 (R CRE g Æ (bootstrap) 一 一 编译 它 语言 
写成 ) 仅 需 要 为 该 编译 器 所 使 用 的 虚拟 机 编 写 模拟 器 。 如 果 该 虚拟 机 保持 简洁 ， " | 解 区 给 将 站 党 容易 编 
写 。 该 方法 的 一 个 著名 例子 是 Pascal 编 译 器 ， 最 初 由 Nicklaus Wirth 所 领导 的 小 组 编写 。 该 编译 器 生成 的 








代码 称 为 P- 代 码 (P-code)， 适 合 于 一 个 虚拟 栈 机 器 。 一 个 合乎 标准 的 P- 机 器 《了 - machine) 可 由 一 个 程 


序 员 在 几 周 内 完成 。P- 代 码 的 执行 速度 约 比 经 过 编译 的 代码 慢 3 倍 。 另 一 种 方法 是 ， 通过 更 多 的 工作 ， 
在 最 终 编译 阶段 可 将 P- 代 码 翻 译 为 等 价 的 机 如 代码 ， 或 者 修改 编译 器 以 直接 生成 机 器 代码 。 该 方法 使 得 
Pascal 很 容易 在 几乎 任何 机 器 上 都 可 用 。 因 此 ， 该 编译 器 是 促使 Pascal 高 度 普及 的 一 个 重要 因素 。 

从 前 面 的 讨论 可 见 ， 虚 拟 指令 可 以 达到 很 多 目的 。 它们 通过 利用 适合 于 所 翻 译 的 特殊 语言 的 原 语 
( 例如 过 程 调用 、 字 符 串 操纵 等 ) 来 简化 编译 器 的 工作 。 它 们 为 编译 器 提供 了 可 移植 性 ， 而 且 可 以 允许 
所 生成 代码 量 的 显著 减少 成 为 现实 。 也 就 是 说 ， 指令 可 被 设计 用 来 很 好 地 满足 特殊 程序 设计 语言 的 需要 
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(例如 ，Pascal 的 P- 代 码 )。 据 报告 ， 使 用 这 种 方法 可 以 将 生成 的 程序 大 小 缩减 2/3 (Tanenbaum 1974). 

当 一 个 完整 的 虚拟 指令 集 被 用 于 目标 机 器 语言 时 ， 必 须 用 软件 来 解释 (模拟 ) 该 指令 集 。 与 由 硬件 
执行 的 目标 指令 相 比 ， 使 用 一 个 良好 实现 的 模拟 器 ， 可 能 有 3:1 到 10:1 的 速度 下 降 。 生 成 需要 这 样 执 行 的 
代码 时 ， 编 译 器 ( 像 Berkeley Pascal pi 处 理 程序 ) 有 时 也 被 称 为 解释 器 (interpreter)， 尽 管 我 们 更 喜欢 
使 用 这 个 术语 来 指 那些 不 明确 地 分 离 翻 译 和 执行 的 语言 处 理 程序 。 解 释 器 将 在 本 节 中 稍 后 讨论 。 

某 些 计算 机 的 指令 集 可 以 通过 微 程序 设计 (microprogramming ) 来 修改 。 微 程序 设计 是 解释 虚拟 指 
令 集 的 理想 机 制 ， 因 为 它 使 高 速 执行 成 为 可 能 。 当 然 ， 一 旦 使 用 了 微 程序 设计 ， 虚 拟 指 令 集 也 就 成 为 实 
际 机 器 的 指令 集 ， 而 不 再 是 虚拟 的 ! | 

总 之 ,几乎 所 有 编译 器 都 或 多 或 少 地 为 虚拟 机 生成 代码 ， 其 中 一 些 虚 拟 机 的 操作 必须 由 软件 或 固件 
(firmware) 来 解释 。 我 们 把 它们 也 看 作 是 编译 器 ， 因 为 它们 在 执行 之 前 使 用 了 独立 的 翻译 阶段 。 

编译 器 之 间 相 互 区 别 的 另 一 个 方面 是 它们 生成 的 目标 机 器 代码 的 格式 。 目 标 机 器 格式 可 分 为 汇编 语 
、 可 重 定 位 的 二 进 制 代码 或 者 内 存 映像 。 
(1) 汇编 语言 (符号 ) 格式 (Assembly Language (Symbolic) Format ) 
编译 器 编写 者 可 能 选择 生成 汇编 代码 的 主要 原因 是 简化 〈 及 模块 化 ) 翻译 。 即 ， 许 多 代码 生成 决定 
( 跳 转 目标 、 长 / 短 地址 格式 ， 等 等 ) 可 以 留 给 汇编 器 。 这 种 方法 在 UNIX 编 译 器 中 很 常见 。 在 小 的 计算 
机 中 一 一 UNIX 最 初 即 为 这 些 计算 机 设计 一 一 这 种 模块 化 可 能 是 强制 的 ， 因 为 完整 的 编译 器 通常 无 法 放 
在 可 用 的 内 存 中 。 生 成 汇编 代码 对 于 交叉 编译 (cross-compilation) (在 一 台 计 算 机 上 运行 编译 器 ， 而 其 
目标 语言 是 另 一 台 计 算 机 的 机 器 语言 ) 通常 也 是 有 用 的 ; 产生 的 符号 格式 易于 在 不 同 计算 机 之 间 进 行 传 
输 。 该 方法 也 使 得 检查 编译 器 的 正确 性 变 得 更 容易 ， 因 为 我 们 可 以 观察 它 的 输出 。 

尽管 有 这 些 优点 ， 但 是 生成 符号 代码 在 现代 编译 器 中 并 不 常见 且 一 般 不 被 推荐 。 它 的 主要 缺点 是 输 
出 的 代码 必须 在 编译 器 之 后 由 一 个 汇编 器 处 理 。 汇 编 器 通常 很 慢 ， 且 程序 员 不 得 不 使 用 一 个 额外 的 步 又 
来 准备 程序 的 执行 。 应 当 注意 的 是 ，UNIX 汇 编 器 被 专门 设计 用 来 处 理 编译 器 的 输出 ; 因此 它们 缺少 大 
多 数 编译 器 所 共有 的 许多 特性 ， 因 而 较 快 。 UNIX 编 译 器 驱动 程序 也 自动 调用 汇编 器 ,因此 它 的 使 用 对 
干 程序 员 是 透明 的 。 然 而 ， 如 果 一 个 编译 器 不 生成 汇编 语言 ， 编译 器 编写 者 仍旧 需要 一 种 方法 来 检查 所 
生成 代码 的 正确 性 。 在 这 种 情况 下 ， 一 个 好 办 法 是 这 样 来 设计 : 编译 器 可 选 地 生成 伪 汇 编 语言 (pseudo- 
assembly language)， 即 一 个 列表 。 如 果 汇 编 语 言 被 生成 的 话 ， 它 看 起 来 就 像 该 列表 这 样 。 

(2) 可 重 定位 的 二 进 制 代码 格式 (Relocatable Binary Format) 

作为 第 二 种 可 选 的 方法 ， 目 标 代码 可 以 用 一 种 二 进 制 格式 生成 ， 其 中 外 部 引用 和 局 部 指令 以 及 数据 
地 址 尚未 绑 定 。 相 反 地 ， 地 址 赋值 为 相对 于 模块 开始 位 置 或 相对 于 某 些 以 符号 命名 的 位 置 的 偏 移 。( 后 一 
种 方法 易于 集中 代码 序列 或 数据 区 . ) 这 种 形式 是 汇编 器 的 典型 输出 ， 国 此 这 种 方法 简单 地 消除 了 准备 程 
序 执行 过 程 中 的 一 个 步骤 。 需要 一 个 链接 步骤 以 便 添加 任何 支撑 库 以 及 从 所 编译 的 程序 中 引用 的 天 他 本 
编译 例 程 ， 并 产生 可 执行 的 绝对 二 进 制程 序 格式 。 

可 重 定位 的 二 进 制 代 码 和 汇编 语言 格式 两 者 都 允许 模块 化 编译 (将 一 个 大 程序 分 成 可 单独 编译 的 片 
段 )、 交 又 语言 引用 (调用 汇编 语言 例 程 或 用 其 他 高 级 语言 编写 的 子 程序 ) 以 及 支持 倪 程 库 〈( 例 如 ， 输 
入 /输出 、 存 储 分 配 以 及 数学 例 程 )。 

(3) 内 存 映像 (加 载 和 运行 ) 格式 (Memory-Image (Load-and-Go) Format ) 

还 有 一 种 方法 是 经 过 编译 的 输出 可 以 被 加 载 到 编译 器 的 地 址 空间 中 ， 并 立即 执行 (而 不 是 像 前 两 种 
方法 那样 放 在 一 个 文件 中 )。 该 过 程 通常 比 经 过 相对 较 慢 旦 较 昂 贵 的 链接 /编辑 中 间 步 又 更 快 。 它 也 允许 
程序 在 一 个 单独 的 步骤 中 进行 准备 和 执行 。 然 而 ， 与 外 部 引用 、 库 以 及 预 编译 例 程 的 接口 非常 有 限 ， 而 
且 对 于 每 次 执行 ， 程 序 必 须 被 重新 编译 ， 除非 提供 某 些 手段 来 存 储 内 存 映 像 。 加 载 和 运行 式 的 编译 器 对 
于 学 生 和 调试 用 途 非常 有 用 ， 在 这 些 用 途中 ， 频繁 的 更 改 是 家 常 便 饭 ， 而 编译 代价 远 远 超过 执行 代价 。 
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当 我 们 不 希望 创建 并 保存 程序 时 (例如 ， 为 节省 文件 空间 或 保证 仅 使 用 最 近 的 库 和 系统 例 程 ) ， 该 方法 
也 很 有 用 。 加 载 和 运行 式 编译 器 的 一 个 有 趣 应 用 是 ASAP 信 息 检 索 系 统 (Conway 1972)。 在 该 系统 中 ， 
数据 以 加 窗 格 式 保存 ， 因 此 只 能 通过 查询 语句 进行 访问 。 编 译 器 对 查询 语句 进行 翻译 ， 并 在 其 代码 中 添 
加 解密 例 程 。 编 译 器 静态 地 检查 用 户 的 访问 权限 ， 拒 绝 编译 访问 被 禁止 数据 的 查询 。 如 果 经 过 编译 的 程 
序 能 够 被 保存 ， 则 不 可 能 更 改 或 撤消 访问 权限 。 

以 上 讨论 的 这 些 代 码 格式 选择 和 目标 机 器 选择 说 明 : 编译 器 互相 之 间 可 以 极其 不 同 ， 而 仍然 执行 相 
同类 型 的 翻译 工作 。 另 一 类 语言 处 理 器 ， 称 为 解释 器 (interpreter)， 它 与 编译 器 不 同 ， 因 为 它 执行 程序 
而 不 明确 进行 翻译 。 图 1-2 示 意 性 地 说 明了 解释 器 如 何 工作 。 





图 1-2 理想 化 的 解释 器 


和 编译 器 形成 对 比 ， 可 以 考虑 解释 器 的 下 列 特性 。 对 于 解释 器 ， 程 序 只 是 可 被 任意 操纵 的 数据 ， 就 
像 任何 其 他 的 数据 一 样 。 执 行 过 程 中 的 控制 点 在 解释 器 中 而 不 在 用 户 程序 中 〈 即 ， 用 户 程序 是 被 动 而 不 
是 主动 的 )。 | 

fe BE ZS JOVE: 
.在 执行 中 可 以 对 用 户 程序 进行 修改 或 向 用 户 程序 添加 代码 。 该 机 制 提 供 了 直接 的 交互 式 调试 能 力 。 
这 种 修改 在 像 APL 或 BASIC 这 样 的 非 块 结构 的 语言 中 最 为 容易 ， 因 为 可 以 修改 个 别 语句 而 不 需要 
重新 分 析 整 个 程序 。 
.对象 所 代表 的 类 型 可 以 动态 改变 的 语言 。 用 户 程序 在 执行 过 程 中 不 断 地 被 重新 检查 ， 而 符号 不 必 
有 国定 的 意义 〈 即 ， 某 个 符号 可 以 在 某 -- 点 代表 一 个 整数 ， 而 在 后 面 的 另 一 点 代表 一 个 布尔 型 数 
组 )。 这 样 的 可 变 绑 定 (fluid binding) 对 于 编译 器 显然 更 麻烦 ， 因 为 一 个 符号 意义 的 动态 改变 使 
得 不 可 能 直接 把 程序 转换 为 机 器 代码 。 

.更 好 的 错误 诊断 信息 。 因 为 源 文本 分 析 (通常 在 编译 时 完成 ) 与 程序 的 执行 混合 在 一 起 ， 所 以 比 

起 编译 器 来 ， 解释 器 更 容易 产生 特别 好 的 诊断 信息 〈 出 错 源 代码 行 的 重建 、 错 误 信息 中 变量 名 的 
使 用 ， 等 等 )。 
。 极 大 程度 的 机 器 无 关 性 ， 因 为 不 生成 机 器 代码 。 所 有 操作 都 在 解释 器 中 执行 。 因此 ， 为 移植 一 个 
解释 器 ， 只 需要 在 一 台新 机 器 上 重新 编译 它 。 

然而 ， 解 释 也 会 包含 很 大 的 开销 : | 
, 在 执行 过 程 中 ， 程 序 文本 必须 不 断 地 被 重新 检查 ， 标 识 符 绑 定 、 类 型 和 操作 都 在 每 次 引用 时 潜在 
地 被 重新 考虑 。 对 于 非常 动态 化 的 语言 ， 这 将 导致 在 执行 速度 上 100:1 (RAER) 的 因子 。 对 于 
更 静态 化 的 语言 (例如 BASIC)， 速 度 下 降 楼 近 于 10:1。 
. 可 能 牵涉 巨大 的 空间 开销 。 解 释 器 和 所 有 支撑 例 程 必 须 经 常 保持 可 用 。 这 种 程序 表示 法 通常 不 像 
经 过 编译 的 机 器 代码 那样 紧凑 (例如 ,存在 符号 表 ， 且 程序 文本 的 存储 格式 被 设计 为 易于 访问 和 
修改 ,而 不 是 为 了 空间 的 最 小 化 ) 。 这 种 空间 损失 可 能 导致 对 程序 大 小 、 变 量 或 过 程 数量 等 的 限制 。 
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超出 这 些 内 建 限制 的 程序 不 能 被 解释 器 处 理 。 

最 后 ， 某 些 语言 (例如 ，BASIC、LISP 和 Pascal) 同时 拥有 解释 器 (用 于 调试 和 程序 开发 ) 和 编译 
器 (用 于 生产 工作 )。 事 实 上 ， 在 编译 器 和 解释 器 之 间 不 总 是 存在 清晰 的 分 界线 。 例 如 ， 许 多 BASIC 解 
释 器 把 源 程 序 “ 翻 译 ” 成 内 部 形式 ， 基 中 像 let 和 goto 这 样 的 关键 字 被 表示 为 单字 节操 作 码 (operation 
code), ， 而 标识 符 则 类 似 地 由 内 部 表 的 引用 替换 。 究竟 是 否 把 做 这 种 压缩 的 程序 称 为 编译 器 并 把 生成 的 
压缩 形式 称 为 目标 程序 ， 只 是 一 个 喜好 问题 。 我 们 选择 不 这 样 做 ， 因 为 这 种 情况 下 所 完成 的 “翻译 ” 
全 是 语法 上 的 。 更 进 一 _ 餐 说 ， 这 种 解释 器 对 源 程序 进行 转换 所 形成 的 内 部 形式 对 使 用 该 解释 器 的 程序 员 
是 不 可 见 的 ， 这 明显 不 同 于 典型 编译 器 输出 的 可 见 性 。 

总 之 ， 所 有 语言 处 理 都 在 某 种 程度 上 涉及 解释 。 我 们 称 为 解释 器 的 处 理 程序 直接 解释 它们 所 处 理 的 
源 程序 或 是 这 些 源 程序 语法 上 的 转换 版 本 。 它 们 可 能 利用 源 程 序 表示 的 可 用 性 以 允许 在 执行 和 调试 时 改 
变 程 序 文 本 。 编 译 器 拥有 独立 的 翻译 和 执行 阶段 ， 但 其 中 也 涉及 “解释 " 。 翻 译 阶段 可 能 生成 由 软件 解 
释 的 虚拟 机 语言 或 者 由 特定 的 计算 机 用 固件 或 硬件 来 解释 的 真正 的 机 器 语言 。 


1.3 编译 器 结构 


任何 编译 器 必须 执行 两 个 主要 任务 : 分 析 (analysis) 要 编译 的 源 程序 ， 以 及 综合 (synthesis) 机 器 
语言 程序 。 机 器 语言 程序 在 运行 时 将 正确 执行 由 源 程序 所 描述 的 动作 。 几 乎 所 有 现代 编译 器 都 是 语法 制 
导 的 (syntax-directed)。 即 ， 编 译 过 程 由 语法 分 析 器 (parser) 所 识别 的 源 程 序 的 语法 结构 来 驱动 。 语 
法 分 析 器 由 词法 记号 (token) 创建 结构 ， 而 词法 记号 是 定义 程序 设计 语言 语法 的 最 低级 符号 。 语 法 结 
构 的 识别 是 分 析 任 务 的 主要 部 分 。 语 义 例 程 (semantic routine) 基于 语法 结构 ， 实 际 提供 程序 的 意义 
(语义 )。 这 些 例 程 扮演 着 双重 角色 ， 因 为 除了 着 手 开始 或 完成 所 有 的 综合 任务 外 ， 它 们 通过 执行 某 些 正 
确 性 检查 〈 例 如， 类 型 和 作用 域 规则 ) 来 完成 分 析 任务 。 语 义 例 程 可 以 生成 程序 的 某 些 中 间 表示 
(intermediate representation, IR) 或 直接 生成 目标 代码 。 如 果 生 成 IR， 则 它 将 作为 代码 生成 器 (code 
generator) 组 件 的 输入 ， 实 际 产生 所 要 的 机 器 语言 程序 。 阴 可 以 任 选 地 由 优化 器 (optimizer) 进行 转换 ， 
以 便 生 成 更 高 效 的 机 器 语言 程序 。 图 1-3 中 示意 性 地 描述 了 编译 器 中 这 些 组 件 的 组 织 方式 。 

本 节 剩 余部 分 更 详细 地 描述 了 每 个 组 件 的 任务 。 在 第 2? 章 中 将 介绍 一 个 简单 的 编译 器， 用 来 为 本 概 
述 中 所 介绍 的 许多 概念 提供 具体 的 示例 。 

(1) 词法 分 析 器 (Scanner) 

词法 分 析 器 通过 逐 字 符 地 读 取 输入 ， 并 将 字符 分 组 为 独立 的 单词 和 符号 来 开始 对 源 程序 的 分 析 。 这 
些 单词 和 符号 被 称 为 词法 记号 (token) ， 代 表 基 本 的 程序 实体 ， 如 标识 符 、 整 数 、 保 留 字 、 分 隔 符 等 。 
词法 分 析 是 接连 为 输入 产生 高 级 解释 的 若干 步骤 中 的 第 一 步 。 词 法 记号 被 编码 (例如 ， 编 码 为 整数 ) 并 
随后 传递 给 语法 分 析 器 进行 语法 分 析 。 有 时 组 成 词法 记号 的 实际 字符 串 〈 或 者 指向 存储 所 有 标识 符 文本 
的 字符 事 空间 的 指针 ) 也 被 一 同 传递 以 便 由 语义 例 程 随 后 使 用 。 

词法 分 析 器 做 以 下 工作 : 

。 把 程序 翻译 成 紧凑 和 一 致 的 形式 (词法 记号 )。 

。 消 除 不 需要 的 信息 〈 比 如 注释 )。 | 

. 处 理 编译 器 控制 指令 〈 打 开 或 关闭 列表 ， 从 一 个 文件 中 包含 源 程序 映像 ， 等 等 )。 这 些 指令 通 党 

通过 伪 注 释 (pseudocomment) 完成 。 伪 注释 拥有 注释 的 语法 形式 ， 但 包含 打算 由 编译 器 处 理 的 

特殊 信息 。 另 一 种 方法 用 于 Ada 中 ， 其 中 一 个 特殊 的 语法 结构 pragma， 用 于 此 目的 。 

。 把 初步 的 信息 放 在 符号 和 属性 表 中 例如， 用 来 产生 随后 的 交叉 引用 列表 )。 

。 格 式 化 并 列 出 源 程序 。 











中 间 表 示 
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(由 编译 器 的 所 有 ü 
阶段 使 用 ) 


目标 机 器 代码 


图 1-3 语法 制导 的 编译 器 结构 


创建 词法 记号 的 主要 动作 通常 由 词法 记号 描述 驱动 。 正 则 表达 式 (regular expression) 记号 (在 第 3 
章 中 讨论 ) 是 找 述 词法 记号 的 一 种 有 效 文法 。 正则 表达 式 是 描述 现代 程序 设计 语言 所 需 的 各 种 词法 记 
号 的 足够 强大 的 正式 记号 。 此 外 ， 它们 可 用 作 识 别 正则 集 (regular set) 一 一 即 正则 表达 式 所 定义 的 集 
合 一 一 的 有 限 自 动机 (finite automata) 的 自动 生成 规范 。 正 则 表达 式 的 这 个 解释 是 词法 分 析 器 生成 器 
(scanner generator) 的 基础 。 只 需 给 出 所 要 识别 的 词法 记号 的 规范 ， 词 法 分 析 器 生成 器 就 可 以 实际 产生 
可 工作 的 词法 分 析 器 。 显 然 ， 这 样 一 个 程序 是 有 价值 的 编译 器 构造 工具 。 

为 简单 起 见 ， 词 法 分 析 器 还 可 以 由 手工 编写 ， 即 ， 显 式 地 构造 识别 特殊 语 言词 法 记号 的 程序 。 使 用 
这 种 方法 是 合理 的 ， 因 为 程序 中 可 能 完全 包含 词法 分 析 器 生成 器 所 需 的 一 组 词法 记号 定义 ， 而 学 习 使 用 
这 样 一 个 生成 器 可 能 比 直接 编写 词法 分 析 器 需要 更 多 的 工作 。 手 工 编写 的 词法 分 析 器 直到 近来 才 成 为 普 
遍 习 惯 ， 因 为 传统 的 常识 认为 由 生成 器 所 产生 的 表 驱 动 的 词法 分 析 器 只 是 比 手工 编码 的 词法 分 析 器 稍 慢 
一 些 。 但 任何 额外 开销 都 可 能 是 至 关 重 要 的 ， 因 为 词法 分 析 可 能 代表 编译 过 程 的 很 大 一 部 分 (因为 有 很 
多 的 字符 级 处 理 )。 例 如 ， 有 报告 称 : 编译 器 仅 为 了 跳 过 空格 就 需要 花费 20% 的 时 间 。 最 近 的 发 展 已 经 
证 明 表 驱动 的 词法 分 析 器 总 是 比 手工 编写 的 词法 分 析 器 更 快 。 此 外 ， 表 驱动 的 词法 分 析 器 的 优点 是 同样 
的 驱动 程序 可 以 用 于 不 同 的 词法 分 析 器 一 一 仅 有 表格 必须 进行 修改 。 因 此 ， 一 旦 知道 如 何 使 用 词法 分 析 
器 生成 器 工具 ， 词 法 分 析 器 的 构造 会 非常 简单 。 

(2) 语法 分 析 器 (Parser) | 

给 定 一 个 形式 语法 规范 (典型 情况 下 以 上 下 文 无 关 文 法 (context-free grammar, CFG) 的 形式 提供 )， 
语法 分 析 器 读 入 词法 记号 并 将 它们 按照 所 使 用 的 CFG 产 生 式 的 规定 分 组 为 单元 。 (文法 在 第 4 章 中 讨论 ， 
语法 分 析 在 第 5 章 和 第 6 章 中 讨论 .) 语法 分 析 器 在 典型 情况 下 由 表 进 行 驱动 。 该 表 由 语法 分 析 器 生成 器 
(parser generator) 根据 CFG 创 建 。 
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进行 语法 分 析 时 ， 语 法 分 析 器 验证 程序 语法 是 否 正 确 ， 如 果 发 现 语法 错误 ， 则 显示 适当 的 诊断 信息 。 
它 也 能 够 修复 错误 (以 形成 语法 上 有 效 的 程序 )。 在 许多 情况 下 ， 语 法 错误 恢复 或 修复 能 够 通过 查阅 由 
语法 分 析 器 生成 器 或 修复 生成 器 所 创建 的 错误 修复 表 (error-repair table) 来 自动 完成 。 

在 识别 语法 结构 的 同时 ， 语 法 分 析 器 可 以 直接 调用 相应 的 语义 例 程 , 或 者 构造 语法 树 〈Ssyntax tree), 
即 该 结构 的 表示 ， 用 来 在 这 棵 树 被 完整 构造 后 驱动 语义 处 理 。 

(3) 语义 例 程 (Semantic Routine ) 

语义 例 程 执行 两 种 功能 。 首 先 ， 它 们 检查 每 个 结构 的 静态 语义 (static semantics )。 即 ， 它 们 验证 结 
构 是 合法 的 和 有 意义 的 〈 其 中 涉及 的 变量 是 已 定义 的 ， 类 型 是 正确 的 ， 等 等 )。 如 果 结 构 是 语义 上 正确 
的 ， 语 义 例 程 也 进行 实际 的 都 译 。 即 ， 生 成 正确 实现 该 结构 的 了 代码 。 语 义 例 程 通常 是 手工 编写 的 ， 且 
与 单独 的 CFG 产 生 式 或 语法 树 的 子 树 相 关联 。 

当 识别 了 一 个 产生 式 应 用 时 ， 相 关 的 语义 例 程 被 调用 以 检查 静态 语义 并 执行 翻译 操作 。 因 此 ， 对 于 
产生 式 E 一 E+T， 可 以 编写 一 个 语义 例 程 来 首先 检查 类 型 相 容 性 并 随后 生成 下 代码 来 执行 加 法 。 

编译 器 的 核心 部 分 ， 也 是 它 的 大 多 数 文本 ， 都 在 语义 例 程 中 。 语 义 例 程 定义 了 每 个 结构 如 何 进行 检 
查 和 翻译 的 细节 。 编 译 的 这 个 方面 可 以 通过 属性 文法 (attribute grammar) 进行 形式 化 。 属 性 文法 通过 
代表 像 类 型 、 值 或 正确 性 的 语义 属性 的 值 (或 称 局 性) 来 对 普通 CFG 进 行 扩 展 。 关 于 属性 文法 和 其 他 定 
义 语义 规范 的 方法 ， 会 在 本 章 稍 后 进行 更 详细 的 讨论 。 

保持 语义 例 程 的 检查 和 翻译 组 件 的 独立 通常 是 有 用 的 。 语 义 检查 首先 完成 ， 它 由 源 语言 的 语义 规则 
单独 控制 。IR 生 成 则 受 源 语言 语义 (生成 的 IR 代 码 必须 正确 地 实现 语言 结构 ) AA RLS (IR 人 代码 的 选 
择 可 能 反映 所 期 望 的 目标 机 器 的 能 力 ) 两 者 的 共同 影响 。 如 果 这 两 种 组 件 是 清晰 分 离 的 ， 则 让 一 个 编译 
器 为 不 同 的 目标 机 器 生成 代码 的 工作 就 会 被 简化 ， 因 为 仅 有 玉生 成 《的 一 小 部 分 ) 和 目标 代码 生成 (的 
大 部 分 ) 是 与 机 器 相关 的 。 

(4) 优化 器 (Optimizer) | m 

P8 xc DI BRE BEBO IR FCR ak Doo 38 ERATE EE UHB £63: EIR. 该 阶段 可 以 非常 
复杂 和 缓慢 ; 它 通常 包括 大 量 的 子 阶段 ， 其 中 一 些 子 阶段 可 能 应 用 不 止 一 次 。 大 多 数 编译 器 允许 关闭 优 
化 以 加 速 翻 译 。 其 他 一 些 编译 器 则 没有 优化 背 ， 而 是 由 语义 例 程 生成 对 代码 生成 器 的 直接 调用 以 产生 目 
标 代 码 。 | | | | 

一 类 不 太 复 杂 的 (而 且 并 不 昂贵 的 ) RERA “AL” (peephole optimization ) 。 这 类 优化 通 
常 应 用 于 目标 代码 。 它 每 次 仅 考 虑 少量 指令 (事实 上 ， 通 过 一 个 “ 罕 孔 ” ) 并 试图 进行 简单 的 、 通 常 是 
机 器 相关 的 代码 改进 。 例 如 ， 普 通 的 窥 孔 优化 包括 消除 与 1 的 乘法 或 与 0 的 加 法 ， 当先 前 的 指令 已 经 把 某 
个 值 从 寄存 器 保存 到 某 个 内 存 位 置 时 ， 删除 将 该 值 让 入 寄存 器 的 装载 指令 ， 以 及 把 一 个 指令 序列 替换 为 
一 条 有 同样 效果 的 单独 的 指令 (例如 ， 一 个 把 某 内 存单 元 中 的 值 加 1 的 指令 )。 宽 孔 优化 器 没有 一 个 全 面 
的 优化 器 那样 的 潜在 收效 ， 但 它 可 以 在 非常 局 部 的 级 别 上 极 大 地 改进 代码 ， 并 通常 对 于 “整理 
(cleanning up) 由 应 用 更 复杂 的 优化 所 得 到 的 最 终 代码 是 非常 有 用 的 。 

(5) 代码 生成 器 (Code Generator) | 

TR 代码 由 代码 生成 器 映射 为 目标 机 器 代码 。 这 需要 关于 目标 机 器 的 详细 信息 ， 并 通常 涉及 特定 于 机 
器 的 优化 (例如 寄存 器 分 配 、 指 令 格式 选择 、 寻 址 模式 等 )。 一 般 的 代码 生成 器 是 手工 编写 的 ， 并 且 十 
分 复杂 ， 因为 生成 好 的 目标 机 器 代码 需要 考虑 许多 特殊 情 次 。 | 

如 果 不 需 要 优化 ， 那么 简化 编译 器 结构 的 一 个 方法 是 将 语义 例 程 和 代码 生成 部 分 合并 ， 并 消除 对 IR 
的 使 用 。 其 结果 是 一 个 一 遍 (one-pass) Fave a 这 种 结构 常常 用 于 Pascal 编 译 器 〈 包 括 UW-Pascal 
[Fischer and LeBlanc 1980] ). 





et 


在 最 近 儿 年 中 ， 代 码 生 成 器 的 自动 生成 的 思想 被 广泛 地 研究 。 这 里 的 思想 是 自动 地 把 一 个 低级 IR 与 
目标 指令 模板 相 匹 配 。 这 使 编译 器 对 目标 机 器 的 依赖 局 部 人 化， 而且， 至 少 在 原则 上 使 得 将 一 个 编译 器 再 
目标 (retarget) 到 一 人 台新 的 且 标 机 器 成 为 可 能 。 这 是 一 个 特别 理想 的 目标 ， 因 为 将 一 个 编译 器 移植 到 一 
台新 机 器 上 通常 需要 做 大 量 的 工作 。 因 此 ， 简 单 地 改变 上 且 标 机 器 模板 的 设 定 并 (从 模块 ) 生成 新 的 代码 
生成 器 的 可 能 性 非常 有 了 吸引 力 。 它 激励 着 我 们 进行 大 量 研究 工作 。 

使 用 一 些 基于 这 些 观 点 的 技术 的 实用 编译 器 之 一 是 GCC，GNU C 编 译 器 (Stallman 1989) 9, 
GCC 是 一 个 做 大 量 优 化 的 编译 器 ， 它 含有 针对 10 余 种 流行 的 计算 机 体系 结构 的 机 器 描述 文件 ， 并 且 至 少 
含有 两 种 语言 的 前 端 (CHACH). 

(6) 符号 和 属性 表 (Symbol and Attribute Table) 

符号 表 (symbol table) 是 允许 将 信息 (属性) 与 标识 符 相 关联 的 机 制 。 每 次 使 用 一 个 标识 符 时 ， 
符号 表 提供 对 处 理 标识 符 声明 时 所 收集 到 的 标识 符 相 关 信息 的 访问 。 因 此 ， 这 些 表 可 以 被 任何 编译 颖 组 
件 使 用 ， 用 于 添加 、 共 享 以 及 之 后 检索 关于 变量 、 过 程 、 标 号 等 的 信息 。 


最 后 ， 注 意 在 讨论 编译 器 设计 和 构造 时 ， 通 常会 谈 到 编译 器 编写 工具 (compiler writing tool). 3X 
些 工具 通常 被 打包 为 编译 器 生成 器 (compiler generator) 或 编译 器 的 编译 器 (compiler-compiler)。 这 样 
的 包 通 常 包 括 词法 分 析 器 和 语法 分 析 器 生成 器 ， 某 些 包 还 包含 符号 表 例 程 和 代码 生成 能 力 。 更 高 级 的 包 
可 能 支持 错误 修复 的 生成 。 

这 些 种 类 的 生成 器 对 于 构造 编译 器 模块 有 很 大 的 帮助 ， 但 在 构造 编译 器 过 程 中 大 量 的 工作 花费 在 编 
写 和 调试 语义 例 程 。 这 些 例 程 数量 众多 ， 通 常 有 上 百 个 ， 而且 几乎 完成 检查 静态 语义 和 生成 IR 代 码 (或 
者 在 一 遍 编 译 器 中 生成 目标 代码 ) 等 所 有 的 工作 。 


1.4 程序 设计 语言 的 语法 和 语义 
程序 设计 语言 的 完整 定义 必须 包括 它 的 语法 (结构 ) 和 语义 意义) 的 规范 。 假 定 CFG 作 为 对 程序 


设计 语言 几乎 通用 的 语法 规范 机 制 ， 语 法 通常 可 以 分 为 上 下 文 无 关 (context-free) 和 上 下 文 相 关 


(context-sensitive) 组 件 。 上 下 文 无 关 语 法 定义 合法 的 符号 序列 ， 而 不 依赖 于 任何 关于 符号 意义 的 概念 。 
例如 ， 上 下 文 无 关 语 法 可 能 宣称 A:= B+ C; 是 语法 上 合法 的 但 A:= B +; 则 不 是 。 然 而 ， 并 非 所 有 的 程序 
结构 都 能 用 上 下 文 无 关 语 法 来 描述 。 类 型 相 容 性 和 作用 域 规则 是 上 下 文 相关 的 问题 。 例 如 ， 如 果 A:= 
B+ C 中 的 任何 变量 是 未 声明 的 或 者 如 果 B 或 C 是 布尔 型 变量 ， 则 A:= B + C 是 非法 的 。 这 种 规则 就 不 能 
用 CFG 来 指定 。 它 是 一 种 上 下 文 相 关 的 约束 。 
因为 CFG 的 局 限 性 ， 上 下 文 相关 的 约束 被 作为 语义 问题 处 理 。 因 此 ， 程 序 设 计 语言 的 语义 组 件 被 典 
型 地 划分 为 两 类 : 静态 语义 (static semantics) 和 运行 时 语义 《run-time semantics ) 。 话 言 的 静态 语义 定 
义 了 上 下 文 相关 的 约束 ， 在 一 个 程序 能 够 被 认为 是 有 效 的 之 前 ， 必 须 强制 这 些 约束 。 典 型 的 静态 语义 规 
则 需要 所 有 标识 符 都 被 声明 ， 操 作 符 和 操作 数 是 类 型 相 容 的 ， 以 及 用 适当 数量 的 参数 调用 过 程 。 贯 穿 所 
有 这 些 约束 的 共同 线索 是 : 它们 都 不 能 用 CFG 来 表达 。 静 态 语义 以 此 来 补充 上 下 文 无 关 规范 ， 并 完成 对 
有 效 的 程序 看 起 来 应 该 是 什么 样子 这 一 问题 的 定义 。 静 态 语义 可 以 被 形式 化 地 或 非 形式 化 地 指定 。 在 大 
多 数 程序 设计 语言 手册 中 的 文字 性 特征 描述 是 非 形式 化 的 规范 。 它 们 倾向 于 相对 简洁 易 读 但 通常 是 不 精 
确 的 。 形 式 化 的 定义 可 以 用 多 种 记号 中 的 任意 一 种 来 表达 。 例 如 ， 属 性 文法 是 形式 化 地 规定 静态 语义 的 
普遍 方法 。 它 们 对 编译 器 中 常见 的 语义 检查 进行 形式 化 。 作 为 属性 文法 的 示例 ， 对 于 产生 式 E1 一 E2+T， 
可 以 通过 E 和 T 的 类 型 属性 以 及 一 个 需要 类 型 相 容 性 的 谓词 ， 如 
日 ” 随 着 GCC 的 发 展 ， 它 现任 可 以 处 理 除 C 语 言 外 的 其 他 许多 程序 设计 语言 。GCC 现 在 代表 GNU 编 译 器 集 (the 
GNU Compiler Collection), ——i##i£ 


i 
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(E,.type = numeric) and (T.type = numeric) 
来 对 其 进行 扩充 。 属 性 文法 适当 地 兼顾 了 形式 和 可 读 性 ， 但 它们 可 能 仍然 很 元 长 。 许 多 编译 器 编写 系统 
利用 属性 文法 并 提供 属性 值 的 自动 计算 功能 。 

运行 时 语义 或 执行 语义 用 于 规定 程序 做 什么 ， 即 计算 什么 。 在 语言 手册 或 报告 中 ， 这 些 语义 通常 被 
极其 非 形 式 化 地 规定 。 作为 选择 ， 可 以 使 用 更 为 正式 的 操作 或 解释 器 模型 。 在 这 样 的 模型 中 ， 定 义 程序 
“状态 ”， 而 程序 执行 则 用 状态 的 改变 来 描述 。 例 如 ， 语 名 A:= 1 的 语义 是 相应 于 A 的 状态 组 件 变 为 1。 

维也纳 定义 语言 (Vienna definition language, VDL) (Bjorner and Jones 1978) 包含 一 个 操作 模型 ， 
其 中 抽象 程序 树 (了 IR 的 一 种 变形 ) 被 遍历 并 用 值 来 修饰 以 便 对 程序 执行 建 模 。VDL 已 被 用 于 定义 PL/I 的 
语义 ， 尽 管 所 得 到 的 定义 非常 巨大 而 元 长 。 

AWRA (Axiomatic definition) (一 份 极 好 的 参考 文献 是 Gries [1981]) 可 以 用 于 在 比 操作 模型 更 
为 抽象 的 层次 上 执行 建 模 。 这 些 语义 基于 形式 化 定义 的 、 与 程序 变量 相关 的 关系 或 谓词 。 语句 以 它们 如 

作为 公理 定义 的 示例 ， 定 义 var := exp 的 公理 通常 陈述 在 语句 执行 之 后 一 个 涉及 var 的 谓词 为 真 ， 当 
且 仅 当 预 先 把 该 谓词 中 所 有 出 现 的 var 替 换 为 exp 所 得 到 的 谓词 为 真 。 例 如 ， 为 使 y>3 在 语句 y := x+1 执 
行 之 后 为 真 ， 谓 词 x+1>3 在 语句 执行 前 应 当 为 真 。 类 似 地 ，y=21 在 执行 x:=1 之 后 为 真 ， 如 果 y=21 在 它 
执行 前 为 真 ， 这 是 宣称 x 的 改变 不 影响 y 的 迁 回 方式 。 然 而 ， 如 果 x 是 y 的 一 个 别名 ， 则 该 公理 是 无 效 的 。 
例如 ， 如 果 x 是 Pascal 的 一 个 绑 定 到 y 的 var 参 数 ， 则 x 是 y 的 别名 。 事 实 上 ， 别名 使 得 公理 定义 更 加 复杂 。 
这 也 是 在 现代 语言 设计 中 普遍 试图 限制 或 禁止 别名 的 原因 。 Ada 简 单 地 声明 使 用 别名 的 程序 是 非法 的 ; 
其 他 语言 则 包含 消除 别名 的 特性 和 静态 语义 约束 。 

公理 方法 对 程序 正确 性 的 推导 证 明 是 很 好 的 ， 因 为 它 避 免 了 实现 细节 ， 并 专注 于 语句 的 执行 如 何 
改变 变量 之 间 的 关系 。 因 此 ， 在 我 们 的 赋值 公理 中 没有 被 更 新 的 内 存 中 位 置 的 概念 ; 相反 ， 赋 值 语 名 
改变 了 变量 间 的 关系 。 尽管 公理 可 以 形式 化 地 描述 程序 设计 语言 语义 的 重要 性 质 ， 但 是 用 它们 来 完整 
地 定义 大 多 数 程序 设计 语言 是 非常 困难 的 。 例 如 ， 它 们 无 法 很 好 地 为 像 内 存 耗 尽 这 样 在 实现 上 需 考 虑 
的 因素 建 模 。 | 

指称 模型 (denotational model) 比 操作 模型 在 形式 上 更 加 数学 化 ， mE TEAD : WEAR 
(von Neumann) 语言 中 心 内 容 的 内 存 访问 和 更 新 概念 。 因 为 它们 依赖 于 数学 中 的 概念 和 术语 ， 指 称 定义 
通常 相当 简洁 ， 尤 其 是 与 操作 定义 相 比 ，。 | 

指称 定义 可 被 看 作 是 语法 制导 的 定义 ， 因为 一 个 结构 的 意义 依照 它 的 直接 组 成 部 分 的 意义 来 定义 。 
例如 ， 为 定义 加 法 ， 可 以 使 用 下 列 规则 : 


E[T1 + T2] = E[T1] is integer and E(T2] is Integer => 
range(E[T1] + E[T2]) else error 


该 定义 宣称 如 果 两 个 操作 数 (T1 和 T2 ) 都 是 整数 〈(E 操 作 符 计 算 表 达 式 的 意义 )， 则 T1+T2 的 意义 是 操 
作 数 的 值 之 和 ， 测 试 保证 它们 在 可 表示 的 整数 范围 之 内 。 否 则 ， 该 表达 式 的 意义 是 一 个 错误 值 。 

指称 技术 已 经 变 得 相当 普遍 ， 而 且 已 经 写 出 了 Ada 的 大 部 分 定义 《不 包括 并 发 性 )。 该 定义 已 经 成 
为 许多 早期 Ada 编 译 器 的 基础 。 这 些 编译 器 通过 实现 一 个 给 定 程序 的 指称 表示 来 运行 。 第 一 个 采用 这 种 
方法 的 Ada 系 统 是 NYU Ada-Ed 系 统 ， 但 是 它 执行 程序 的 速度 非常 慢 。 它 的 编写 者 声称 缓慢 主要 是 由 关 
键 指称 功能 的 低 效 实现 造成 的 。 编 译 器 研究 中 的 大 量 努 力 都 指向 找 出 将 指称 表示 自 动 转 换 为 等 价 的 可 直 
接 执行 的 表示 的 方法 (Sethi 1983, Wand 1982, Appel 1985)。 如 果 这 种 努力 获得 成 功 ， 指称 定义 《以 及 
词法 和 语法 定义 ) 可 能 足够 自动 产生 一 个 可 工作 的 解释 器 或 编译 大。 

再 者 ， 关 注 精确 的 语义 规范 的 动机 基于 这 样 一 个 事实 : 为 一 个 程序 设计 语言 写 完整 的 和 精确 的 纺 
译 器 需要 该 语言 被 良好 地 定义 。 该 断言 看 起 来 是 不 言 而 喻 的 ， 但 许多 语言 都 是 由 不 精确 的 语言 参考 手册 





DO s$I*. 


所 定义 。 这 样 一 个 手册 在 典型 情况 下 包含 正式 的 语法 规范 ， 但 是 是 以 非 正式 的 文字 风格 编写 。 结 果 产 生 
的 定义 不 可 避免 地 是 二 义 的 或 在 某 些 方面 是 不 完整 的 。 例 如 ， 考 虑 下 面 摘自 Pascal 的 表达 式 : 
(I <> 0) and (K div [> 10) 


该 表达 式 总 是 被 良好 定义 的 吗 〈 假 定 !( 和 KK 是 已 经 适当 初始 化 的 整数 ) ? 它 依赖 于 是 否 必须 对 该 表达 式 的 
两 个 操作 数 都 进行 求 值 (如果 不 需要 对 两 个 操作 数 都 进行 求 值 的 话 ， 它 还 依赖 于 操作 数 的 计算 次 序 )。 
如 果 ang 被 视 为 普通 二 元 运算 符 ， 在 应 用 ang 之 前 ， 它 的 两 个 操作 数 都 必须 被 求 值 。 这 意味 着 如 果 !=0， 
该 表达 式 将 会 失败 (被 零 除 错误 )。 然 而 ，and 是 特殊 的 ， 因 为 在 确定 它 的 值 时 它 的 两 个 操作 数 不 必 都 
进行 计算 。 特 别 地 ， 如 果 and 的 左边 操作 数 为 假 ， 则 整个 表达 式 必定 为 假 。 这 就 是 短路 计算 《short- 
circuit evaluation ) ， 经 常用 于 布尔 运算 符 。 如 果 使 用 短路 计算 ， 上述 表 达 式 总 是 被 良好 定义 的 。 

原始 的 Pascai 定 义 中 没有 提 到 短路 计算 。 它 简单 地 说 计算 次 序 是 未 指定 的 ， 而 类 似 上 面 那样 依赖 于 
计算 次 序 的 表达 式 ， 则 应 当 避 免 。 结 果 ， 某 些 Pascal 编 译 器 使 用 普通 的 完全 计算 ， 而 其 他 的 编译 器 则 对 
布尔 运算 符 使 用 短路 计算 。 这 种 不 兼容 性 导致 在 编译 器 间 移植 程序 时 存在 严重 问题 。 所 有 语言 都 必须 允 
许 某 些 细节 (如 整数 和 实数 的 范围 ) 依赖 于 实现 ， 但 是 留 给 实现 者 决定 的 每 个 选择 显然 都 是 创造 编译 右 
间 不 兼容 性 的 机 会 。 

编译 器 通常 作为 事实 上 的 语言 定义 。 也 就 是 说 ， 程 序 设计 语言 事实 上 是 由 编译 器 选择 接受 的 内 容 以 
及 选择 如 何 翻 译 语言 结构 的 方式 来 定义 。 事 实 上 ， 上 面 介绍 的 形式 化 语义 定义 的 操作 方法 就 来 用 了 这 种 
观点 。 为 一 种 语言 定义 一 个 标准 解释 器 ， 那 么 程序 的 意义 就 恰好 是 解释 器 所 宣称 的 任何 东西 。 一 个 早期 
的 (而 且 非 常 优雅 的 ) 例子 是 由 McCarthy (1965) 所 提供 的 LISP 解 释 器 的 一 个 操作 定义 。 假 定 仅仅 采 
用 7 个 基本 函数 以 及 参数 绑 定 和 函数 调用 的 概念 ， 就 能 够 根据 LISP 解 释 器 的 动作 定义 出 整个 LISP，。 
1.5 编译 器 设计 与 程序 设计 语言 设计 

我 们 的 主要 研究 兴趣 是 现代 程序 设计 语言 编译 器 的 设计 和 实现 。 该 研究 的 一 个 有 趣 的 方面 是 程序 设 
计 语言 设计 和 编译 器 设计 之 间 如 何 相互 影响 。 显 然 ， 程 序 设计 语言 的 设计 影响 并 常常 支配 编译 器 的 设计 。 
许多 聪明 且 有 时 非常 精巧 的 编译 器 技术 都 由 应 付 某 些 程序 设计 语言 结构 的 需要 而 产生 的 。 一 个 很 好 的 例 
子 是 thunk 机 制 ， 它 为 处 理 Algol 60 的 换 名 调用 (call-by-name ) 参数 而 被 发 明 出 来 。(thunk 是 特殊 类 型 的 
函数 ， 由 编译 器 创建 ， 用 来 获得 某 个 参数 的 值 。) 编译 器 设计 的 技术 发 展 水 平 也 强 有 力 地 影响 了 程序 设计 
语言 的 设计 ， 因 为 不 能 被 有 效 编译 的 程序 设计 语言 通常 是 不 被 采用 的 ! 许多 成 功 的 程序 设计 语言 设计 者 
( 如 Pascal 和 Modula-2 的 设计 者 Niklaus Wirth) 都 拥有 广泛 的 编译 器 设计 背景 。 易 于 编译 的 程序 设计 语言 
有 许多 优点 : 

。 它 们 通常 易于 学 习 、 阅 读 和 理解 。 如 果 一 个 特性 难以 编译 ， 它 很 可 能 也 难以 理解 。 

。 它们 将 会 在 许多 种 机 器 上 都 拥有 高 质量 的 编译 器 。 这 对 于 一 种 语言 的 成 功 通常 是 至 关 重 要 的 。 例 

如 ，C、Pascal 和 FORTRAN 到 处 可 用 且 非 常 流行 ，PL/I 和 Algol 68 则 仅 有 有 限 的 可 用 性 ， 因而 远 不 

够 流行 。 | 

。 它 们 通常 会 生成 更 好 的 代码 。 质 量 低劣 的 代码 在 关键 性 的 应 用 程序 中 是 致命 的 。 

。 它们 会 有 较 少 的 编译 器 错误 。 如 果 编 译 器 编写 者 没有 完全 理解 一 种 语言 ， 他 如 何 能 够 制造 出 一 个 

可 靠 的 编译 器 ? | | 

。 编 译 器 会 更 小 、 更 廉价 、 更 快 、 更 可 靠 、 更 普及 。 

。 编 译 器 错误 诊断 和 程序 开发 特性 通常 会 更 好 。 

贯穿 编译 器 设计 学 习 的 全 过 程 ， 我 们 将 会 从 许多 语言 中 得 到 想法 、 解 决 方案 以 及 明白 它们 的 缺点 。 
我 们 主要 关注 Ada， 但 也 会 考虑 Pascal、Algol 60、C 和 FORIRAN。 专注 于 Ada 并 非 是 因为 它 易于 编译 ， 
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而 是 因为 它 向 编译 器 设计 者 提出 了 许多 挑战 ， 并 因此 为 我 们 提供 了 一 个 介绍 各 种 编译 技术 的 统一 框架 。 
我 们 也 将 有 限 地 引用 Simula 67, PL/I, Algol 68 和 Euclid。 这 些 语言 中 的 每 一 种 都 被 认为 是 可 编译 的 
(尽管 某 些 语言 比 其 他 语言 更 具有 挑战 性 )。 每 一 种 语言 都 可 以 被 适当 地 翻译 为 典型 计算 机 的 机 器 语言 。 
根据 先前 的 讨论 ， 每 种 这 样 的 语言 都 有 一 个 明确 的 翻译 阶段 。 | 

相反 ， 像 Snobol 和 APL 这 样 的 语言 通常 被 认为 是 不 可 编译 的 ， 因 为 在 最 一 般 的 情况 下 ， 在 这 些 语 言 
中 所 指定 的 操作 ， 仅 使 用 执行 前 可 用 的 信息 ， 将 不 能 完全 地 被 翻译 为 机 器 代码 。( 这 些 语 言 的 编译 器 确 
实 存在 ; 它们 试图 尽 可 能 多 地 翻译 一 个 程序 ， 将 其 余 的 部 分 留 给 运行 时 例 程 来 解释 。) 

一 个 允许 编译 的 程序 设计 语言 必须 具备 什么 属性 呢 ? 有 许多 需要 考虑 的 问题 ， 但 问题 主要 是 什么 可 
以 在 执行 开始 之 前 被 确定 和 限制 ， 以 及 什么 必须 推迟 到 执行 开始 以 后 才能 确定 。 也 就 是 说 ， 哪 些 方面 是 
动态 的 ， 而 哪些 方面 又 是 静态 的 ?尤其 是 要 考 虚 下 列 的 问题 : 

。 能 否 在 执行 开始 之 前 确定 每 个 标识 符 引 用 的 作用 域 和 绑 定 ? 也 就 是 说 ， 能 否 在 编译 时 确定 由 标识 

符 所 表示 的 数据 对 象 或 者 指向 数据 对 象 的 指针 ? 如 果 不 能 ， 可 能 必须 在 每 次 用 到 时 ， 在 一 张 运行 

时 符号 表 中 对 标识 符 进 行 有 效 的 查找 。 

。 能 否 在 运行 开始 之 前 确定 一 个 对 象 的 类 型 ?如 果 不 能 ， 每 个 运算 符 的 意义 可 能 需要 不 断 地 重新 确 

定 。 例 如 ， 如 果 A 和 B 是 数组 而 不 是 整数 的 话 ，A*B 可 能 表示 非常 不 同 的 意义 。 


食 Snobol 和 APL 这 样 没有 类 型 声明 且 人 允许 变量 的 类 型 动态 改变 的 语言 ， 称 为 非 类 型 的 


(untyped) 或 动态 类 型 的 (dynamic-typed) 语言 。 注 意 : 这 些 语言 与 无 类 型 的 (typeless) 语言 
(如 Bliss 或 BCPL) 是 不 同 的 。 在 无 类 型 的 语言 中 只 有 一 种 类 型 的 数据 ， 单 元 (cell) RF (word). 
许多 系统 实现 语言 (System Implementation Language, SIL) 是 无 类 型 的 或 几乎 是 无 类 型 的 。 例 如 ， 
时期 版 本 的 C 更 多 地 使 用 类 型 来 定义 对 象 大 小 而 不 是 指定 允许 的 操作 类 别 ， 这 与 在 像 Pascal 和 Ada 
这 样 的 语言 中 完成 的 对 操作 数 的 强 类 型 检查 形成 鲜明 对 比 。C 现 在 比 最 初时 变 得 更 加 强 类 型 化 。 

.现存 的 程序 文本 在 执行 过 程 中 能 否 被 改变 或 添加 ?如果 能 ， 程 序 文本 则 可 能 需要 用 介 于 源 语句 和 


机 器 代码 之 间 的 某 种 内 部 表示 进行 保存 。LISP 是 允许 在 运行 时 创建 程序 文本 的 语言 中 最 著名 的 例 


子 ， 但 Snobol 和 APL 也 拥有 此 特性 。 

一 般 地 ， 可 编译 的 语言 是 那些 拥有 结构 、 标 识 符 作 用 域 以 及 类 型 绑 定 在 编译 时 〈( 即 在 执行 之 前 ) E 
定 的 语言 。 实 际 上 ， 对 于 一 个 编译 器 来 说 ， 如 果 它 要 将 程序 操作 完全 翻译 成 具体 的 机 器 指令 ， 则 它 必 须 
知道 这 些 程序 组 件 是 静态 的 。 

pascal 程 序 的 结构 是 编译 所 考虑 的 问题 如 何 影响 语言 设计 的 另 一 个 例子 (不 真正 涉及 语言 特性 )。 
Pascal 被 设计 为 可 由 一 遍 编 译 器 进行 翻译 。 所 有 全 局 声明 必须 在 程序 开头 出 现 ， 以 保证 它们 对 所 有 需要 
引用 它们 的 子 程序 可 用 。 同 样 地 ， 主 程序 出 现在 程序 文本 的 最 后 ， 所 以 它 所 使 用 的 任何 变量 和 它 所 调用 
的 任何 子 程序 都 已 经 被 定义 。 这 种 程序 结构 并 不 显著 地 增强 程序 的 可 读 性 ， 但 它 确实 为 编译 器 的 效率 做 
出 积极 的 贡献 。 


1.6 编译 器 分 类 


有 许多 种 类 的 编译 器 变 体 。 错 误诊 断 编译 器 (diagnostic compiler) (例如 PL/C [Conway and 
Wilcox 1973] . WATFIV [WATFIV 1981]，UW-Pascal 等 ) 被 特别 设计 以 辅助 程序 的 开发 和 调试 。 它 们 
提供 对 程序 的 详细 检查 并 详细 地 说 明 程序 员 的 错误 。 它们 通常 能 够 自动 修复 较 小 的 错误 (An, khit 
号 或 括号 }。 某 些 程序 错误 仅 在 运行 时 〈 即 在 程序 执行 时 ) 才能 被 检测 到 。 这 样 的 错误 包括 无 效 下 标 、 
指针 的 误 用 以 及 非法 文件 操作 。 错误 诊断 编译 器 有 能 力 包含 能 够 检测 运行 时 错误 并 中 止 程序 执行 的 检查 
代码 。 尽 管 错 误诊 断 编译 器 主要 用 于 教学 环境 中 ， 但 是 错误 诊断 技术 在 所 有 编译 器 中 都 是 有 价值 的 。 过 
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去 ， 错 误诊 断 编 译 器 仅 用 于 程序 开发 的 开始 阶段 。 当 程序 接近 完成 时 ， 使 用 “产品 编译 器 ”( production 
compiler)。 产 品 编译 器 通过 忽略 错误 诊断 问题 来 提高 程序 速度 。 这 种 策略 被 Tony Hoare 比 喻 为 在 旱地 上 
航海 课时 穿着 救生 衣 ， 但 在 海里 时 却 把 它 扔 掉 ! 实际 上 ， 有 一 点 变 得 日 益 清 楚 : 对 于 几乎 所 有 的 程序 ， 
正确 性 而 非 速 度 才 是 最 重要 的 问题 。 | 

优化 编译 器 (optimizing compiler) 被 特别 设计 用 来 以 编译 器 复杂 性 和 编译 时 间 的 增加 为 代价 产生 高 
效 的 机 器 代码 。 实 践 中 ， 所 有 的 产品 级 质量 编译 器 一 一 它们 的 输出 将 被 用 于 日 常 工作 中 一 一 都 做 出 某 种 
努力 以 生成 好 的 机 器 代码 。 例 如 ， 对 表达 式 I+0 通 常 不 会 生成 加 法 指令 。 

术语 “优化 编译 器 ”实际 上 是 一 个 误 称 ， 因 为 没有 任何 的 编译 器 ， 无 论 它 多 么 复杂 ， 能 够 为 所 有 程 
序 产 生 有 最 优 代码 。 其 原因 有 两 点 。 首 先 ， 计 算 科 学 在 理论 上 已 经 证 明 即 使 像 两 个 程序 是 否 等 价 这 人 么 简单 
的 一 个 问题 都 是 不 可 判定 的 ; 也 就 是 说 ， 它 不 可 能 由 任何 计算 机 程序 来 解决 。 因 此 ， 找 出 一 个 程序 最 简 
单 的 〈 而 且 最 高 效 的 ) 翻译 并 不 总 是 能 够 完成 的 。 其 次 ， 许 多 程序 优化 需要 与 被 编译 的 程序 大 小 的 指数 
函数 成 正比 的 时 间 。 最 优 代码 ， 即 使 在 理论 上 是 可 能 的 ， 在 实践 中 通常 也 是 办 不 到 的 。 

优化 编译 器 实际 上 使 用 各 种 混合 的 “转换 ”来 改善 程序 的 性 能 。 优 化 编译 器 的 复杂 度 源 于 对 多 种 转 
换 的 使 用 需要 ， 其 中 一 些 转换 互相 冲突 。 例 如 ， 将 频繁 使 用 的 变量 放 在 寄存 器 中 减少 了 它们 的 访问 时 间 ， 
但 使 得 过 程 和 函数 调用 更 加 昂贵 ,因为 需要 在 调用 期 间 保存 寄存 器 。 许 多 优化 编译 器 提供 很 多 优化 级 别 ， 
各 个 级 别 以 逐渐 增 大 的 代价 提供 逐渐 增加 的 代码 改进 。 对 于 哪 种 改进 最 有 效 (并 且 最 廉价 ) 的 选择 是 判 
断 和 经 验 的 问题 。 在 后 面 各 章 中 ， 将 建议 可 能 的 优化 ， 并 强调 那些 既 简 单 又 有 效 的 优化 。 全 面 的 优化 编 
译 器 超出 了 本 书 的 范围 ， 但 以 合理 的 代价 产生 高 质量 代码 的 编译 器 是 可 以 达到 的 目标 。 

编译 器 是 为 特定 的 程序 设计 语言 ( 源 语 言 ) 和 特定 的 目标 计算 机 (编译 器 将 为 其 生成 代码 ) 所 设计 。 
给 定 现存 的 多 种 程序 设计 语言 和 计算 机 ， 必 须 编写 大 量 相似 、 但 不 相同 的 编译 器 。 这 种 形势 决定 了 从 事 
编译 器 编写 行业 的 人 们 的 利益 ， 但 它 也 导致 许多 重复 努力 以 及 编译 器 质量 的 极 大 差异 。 结 果 ， 一 种 新 的 
编译 器 类 型 ， 可 再 目标 编译 器 (retargetable compiler), 变 得 尤为 重要 。 

可 再 目标 编译 器 的 上 且 标 机 器 可 以 改变 ， 而 不 需要 重 写 它 的 与 机 器 无 关 的 组 件 。 可 再 目标 编译 器 比 普 
通 编译 器 更 难以 编写 ， 因 为 必须 仔细 地 局 部 化 对 目标 机 器 的 依赖 。 类 似 地 ， 可 再 目标 编译 器 通常 难以 像 
普通 编译 器 那样 生成 同样 高 效 的 代码 ， 因 为 难以 利用 特殊 情况 和 机 器 特性 。 尽 管 如 此 ， 因 为 可 再 目标 编 
译 器 允许 分 担 开发 成 本 并 提供 跨 计算 机 的 一 致 性 ， 所 以 它 不 失 为 一 项 重要 的 新 技术 。 在 学 习 编 译 的 基本 


原理 时 ， 将 专注 于 目标 为 单一 机 器 的 编译 器 。 在 后 面 的 各 章 中 ， 也 将 考虑 为 提供 再 目标 能 力 所 需 的 技术 。 


实际 中 的 编译 器 仅仅 是 在 编辑 -编译 -测试 循环 中 使 用 的 一 个 工具 。 用 户 首先 编辑 一 个 程序 ， 然 后 编 
译 它 ， 最 后 测试 它 的 性 能 。 因 为 程序 错误 必须 被 发 现 并 纠正 ， 所 以 该 循环 会 重复 很 多 次 。 一 种 新 类 型 的 
程序 设计 工具 ， 程 序 开 发 环境 (Program Development Environment，PDE)， 被 设计 用 来 集成 该 循环 〈 例 
如 ， 康 奈 尔 程序 综合 器 [Teitelbaum and Reps 1981]、Gandalf {Notkin 1985]、Cope [Archer and Conway 
1981]. Poe [Fischer et al. 1984] )。PDE 人 允许 增 量 式 地 构造 程序 ， 其 中 完整 集成 了 程序 检查 和 测试 。PDE 可 
被 视 为 编译 器 演化 过 程 中 的 下 一 个 阶段 。 本 书 中 讨论 的 编译 技术 是 创建 PDE 所 需要 的 基本 要 素 。 


1.7 影响 编译 器 设计 的 因素 


以 前 ,计算 机 的 指令 集 更 多 地 面向 汇编 级 程序 设计 而 不 是 高 级 程序 设计 。 结 果 ， 生 成 高 质量 的 代码 
变 得 非常 难以 实现 (Wulf 1981)。 存 在 的 问题 有 很 多 : 

。 众 所 周知 ， 指 令 集 是 不 一 致 的 。 例 如 ， 某 些 操作 必须 在 寄存 器 中 完成 ， 而 其 他 的 操作 可 以 在 内 存 

中 完成 。 通 党 存在 许多 寄存 器 类 ， 每 一 类 适 于 某 些 特殊 的 操作 类 。 

。 高 级 操作 没有 被 很 好 地 支持 。 虽 然 大 多 数 现在 的 语言 支持 块 结构 和 动态 存储 分 配 ， 但 栈 和 堆 存 储 
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通常 还 是 难以 高 效 地 实现 。 尽管 如 此 ，Wulf 和 警告 说 ， 不 要 使 通用 的 体系 结构 过 分 紧密 地 面向 特定 
的 语言 。 

« 数据 和 程序 集成 的 价值 被 低估 ， 而 速度 则 被 过 分 强调 。 结果 ， 程序 设计 错误 可 以 不 被 发 现 ， ABI 
为 害怕 额外 的 检查 会 造成 不 可 接受 的 程序 执行 的 减缓 。 | 

因为 可 进行 微 程 序 设 计 的 机 器 广泛 可 用 ， 以 及 在 工程 师 和 计算 机 科学 家 之 间 更 好 的 沟通 ， 所 以 情况 
正在 改善 。 通 过 把 指令 集 调整 为 最 普遍 需要 的 操作 ， 可 以 实现 程序 大 小 的 惊人 缩减 (已 经 报告 了 三 们 的 
缩减 )。 单 独 的 指令 可 以 支持 普通 的 高 级 操作 ， 例 如 ，VAX 拥 有 单独 的 指令 ， 可 以 在 过 程 调 用 中 保存 寄 
存 器 、 传 递 参数 以 及 压 人 栈 空 间 。 那些 被 认为 昂贵 得 惊人 的 操作 (如 动态 存储 管理 ) 可 以 作为 机 器 设计 
的 一 个 必要 组 成 部 分 。 它 的 一 个 好 的 例子 是 MIT LISP 机 器 (Sussman 1981)， 其 中 包含 集成 的 垃圾 收集 
器 (garbage collector)。 彻 底 的 经 过 重新 组 织 的 机 器 设计 也 允许 更 仔细 地 控制 程序 和 数据 对 象 的 使 用 
(以 及 潜在 的 误 用 )。 例 如 ，Intel iAPX 432 对 多 种 访问 控制 机 制 提供 了 直接 硬件 支持 。 

另 一 学 派 的 思想 则 主张 指令 集体 系 结构 应 当 更 简单 ， 而 不 是 更 复杂 。 依 据 这 种 哲学 设计 的 机 器 称 为 
精 减 指令 集 计 算 机 (reduced instruction set computer, RISC) (Patterson 1985). 奇怪 的 是 ， 这 些 设计 也 
被 认为 是 面向 编译 器 的 ， 因 为 它们 通常 假定 它们 的 程序 将 以 高 级 语言 编写 并 由 优化 编译 器 处 理 。 它 们 的 
指令 集 的 简单 性 意 在 通过 使 代码 生成 器 可 能 的 选择 最 小 化 来 减轻 编译 器 的 任务 。 然 而 ， 有 趣 的 是 ， 要 注 
意 : 即使 是 一 些 RISC 机 器 也 拥有 对 子 程序 调用 的 相对 复杂 的 支持 。 

总 之 ， 高 效 和 可 靠 地 支持 现代 程序 设计 语言 结构 的 需要 已 经 开始 对 指令 集 设 计 产 生 巨 大 的 影响 。 这 
里 还 不 十 分 清楚 我 们 描述 的 这 两 种 方法 中 的 哪 一 种 是 最 合适 的 。 重要 的 是 两 者 都 慎重 考虑 用 高 级 语言 
写 的 程序 的 执行 ， 因 此 在 最 佳 利用 已 有 硬件 资源 方面 ， 它 们 都 极 大 减轻 了 编译 器 编写 者 的 负担 。 

在 后 续 各 章 中 ， 假 设 了 一 个 虚拟 机 器 ， 它 的 指令 集 对 于 现代 计算 机 是 有 代表 性 的 。 选择 一 个 特殊 的 
指令 集 是 为 了 使 我 们 的 讨论 更 具体 。 在 实践 中 ， 读者 也 会 希望 把 它 替 换 为 一 个 更 熟悉 的 体系 结构 。 熟 悉 
目标 机 器 是 至 关 重 要 的 ; 代码 生成 的 本 质 是 确定 哪 种 指令 序列 可 以 最 好 地 实现 给 定 的 结构 。 像 编译 器 设 
计 中 的 其 他 方面 一 样 ， 经 验 是 最 好 的 指导 ， 因此 我 们 从 翻译 一 个 非常 简单 的 语言 开始 ， 并 努力 完成 今后 
更 具 挑战 性 的 翻译 任务 。 


练习 


， 我 们 介绍 的 编译 模型 基本 上 是 面向 批 处 理 的 。 特 别 地 ， 它 假 定 一 个 完整 的 源 程序 已 经 编写 出 来 ， 而 
有 在 程序 员 能 够 执行 或 对 程序 进行 任何 改动 之 前 该 程序 将 被 完全 编译 。 一 个 有 趣 的 选择 是 “交互 式 
编译 器 ”(interactive compiler)。 交 互 式 编译 器 通常 作为 程序 开发 环境 的 一 部 分 ， 允许 程序 员 交 互 式 


地 响应 程序 错误 ， 在 错误 被 检测 到 时 即 对 其 进行 改正 。 它 也 允许 程序 在 被 完全 纺 写 出 来 以 前 进行 测 . 


试 ， 提 供 逐 步 的 实现 和 测试 。 
重新 设计 图 1-3 的 编译 器 结构 ， 以 允许 增 量 式 编译 。 ( 关键 思想 是 允许 对 个 别 的 程序 结构 进行 修改 和 
编译 而 不 必 重 新 编译 所 有 东西 。) 

2. 在 1.7 节 中 我 们 注意 到 RISC 体 系 结构 通过 减少 代码 生成 器 所 必须 做 出 的 选择 数量 对 其 进行 简化 。 
RISC 体 系 结构 在 很 大 程度 上 从 所 谓 的 CISC (Complex Instruction Set Computer， 复 杂 指 令 集 计算 机 ) 
体系 结构 的 负面 反映 中 得 到 局 发 。 CISCH 618 KREM ANGLE AEBESS, 一 个 著名 的 CISC 体 系 

结构 是 流行 的 VAX 系 列 计算 机 。 

假定 要 你 编写 一 个 以 CISC 机 器 (VAX) 为 目标 的 编译 共 。 你 有 两 种 选择 。 可 以 设计 编译 器 使 其 利 
用 所 有 的 指令 和 寻 址 模式 ， 或 者 审慎 地 选择 一 个 可 用 的 子 集 并 仅 使 用 该 子 集 。 分 析 这 两 种 方法 的 权 
衡 之 处 。 在 什么 情况 下 你 会 分 别 推荐 每 一 种 方法 ? 
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— ss 


为 认识 语法 (syntax). HABX (static semantics) 和 运行 时 语义 (run-time semantics) 的 区 别 ， 在 
运行 


$l Ë 
你 喜欢 的 教科 书 中 查找 Pascal 的 with 语句 定义 。 对 定义 with 的 每 条 规则 ， 确 定 它 属 于 哪 一 种 定义 种 类 。 
编译 器 通常 以 它们 所 编译 的 语言 来 编写 。 当 有 人 考虑 最 初 的 编译 器 是 怎么 来 的 时 ， 这 会 造成 “ 鸡 和 
蛋 ” 的 问题 。 如 果 你 需要 在 系统 Y 上 为 语言 X 创 建 第 一 个 编译 器 ， 一 种 方法 是 创建 一 个 交叉 编译 器 
(cross-compiler )。 交 又 编译 器 在 一 台 机 器 上 


没有 操作 系统 或 任何 语言 的 编译 絮 一 一 会 引起 什么 额外 的 问题 ? 


但 为 某 个 不 同 的 机 器 生成 代码 。 解 释 你 会 如 何 使 用 


它 不 应 比 所 需 的 更 复杂 


交叉 编译 来 创建 在 系统 Y 上 运行 的 语言 X 的 编译 器 ， 并 为 系统 Y 生 成 代码 。 如 果 系 统 Y 是 裸 系 统一 一 即 
交叉 编译 假定 : 语言 X 的 编译 器 存在 于 某 台 机 器 上 。 当 为 一 种 新 语言 创建 第 一 个 编译 器 上 时， 该 假定 不 


成 立 。 在 这 种 情况 下 ， 可 以 采用 一 种 自 举 (bootstrapping ) 方法 。 首 先 ， 选 择 语言 X 中 足够 实现 一 个 


简单 编译 器 的 子 集 。 其 次 ，X 子 集 的 简单 编译 器 由 任何 可 用 的 语言 编写 。 该 编译 器 必须 是 正确 的 ， 但 
一 个 完整 编译 器 可 用 为 止 。 


因为 它 将 随后 被 丢弃 。 下 一 步 是 用 X 的 子 集 重 写 X 的 子 集 编译 器 并 随后 使 用 
先前 创建 的 子 集 编译 器 重新 编译 它 。 最 后 ， 可 以 扩大 X 的 子 集 以 及 它 的 编译 器 ， 直 到 以 X 编 写 的 X 的 
些 特性 也 是 值得 具备 的 ? 


发 生 的 处 理 的 种 类 。 


假定 你 要 自 举 Pascal (或 C)。 简 要 描述 一 个 合适 的 子 集 语言 。 该 语言 必须 具备 哪些 特性 ? 其 他 的 哪 
为 了 允许 建立 可 打印 的 文档 创建 了 像 trofF 和 TesX 这 样 的 工具 。 它 们 可 被 视 为 程序 设计 语言 的 变 体 ， 


其 输出 控制 激光 打印 机 或 照排 机 。 源 语言 命令 控制 像 间 距 、 字 体 选 择 、 磅 值 以 及 特殊 符号 这 样 的 细 
文档 的 确切 形式 总 是 可 见 的 。 


节 。 如 果 要 翻译 frofr 或 TEX 的 输入 ， 使 用 图 1-3 的 语法 制导 编译 器 结构 ， 提 出 在 每 个 编译 器 阶段 应 当 


为 文档 进行 “程序 设计 ”的 另 一 种 方法 是 使 用 复杂 的 编辑 器 来 交互 式 地 输入 和 编辑 文档 。( 编辑 操 
尽管 编译 器 被 设计 用 于 翻译 特定 的 语言 


| 
作 允 许 选择 字体 、 选 择 磅 值 、 包 含 特殊 符号 等 。) 这 种 文档 准备 的 方法 被 称 为 “所 见 即 所 得 ，， 因 为 
这 两 种 方法 的 相对 优点 和 缺点 各 是 什么 ? 对 于 程序 设计 语言 是 否 存在 类 似 的 方法 ? 
编译 复杂 化 ? 


但 它们 通常 也 人 允许 调用 以 其 他 语言 《通常 为 FORITRAN C 
或 汇编 语言 ) 编写 的 子 程序 。 为 什么 要 允许 这 样 的 “对 外 调用 ”(foreign call) ? 它们 以 何 种 方式 使 








第 2 章 一 个 简单 编译 器 


在 这 一 章 ， 为 了 向 读者 提供 对 编译 过 程 组 织 的 总 体 认 识 ， 我 们 将 较为 详细 地 考虑 如 何 为 一 个 非常 小 
的 程序 设计 语言 构造 编译 器 。 我 们 的 语言 称 为 Micro， 它 是 一 个 极为 简单 的 语言 ， 甚至 缺少 足够 的 特性 
用 来 编写 一 个 有 用 的 程序 。 设 计 Micro 只 是 为 讨论 简单 的 示例 编译 器 提供 一 个 具体 的 语言 。 
我 们 首先 非 形式 化 地 定义 Micro: 
。 仅 有 的 数据 类 型 是 整 型 。 | 
。 所 有 的 标识 符 采 用 隐 式 声明 ， 且 其 长 度 不 超过 32 个 字符 。 标 识 符 必 须 以 字母 开头 并 由 字母 、 数 字 
和 下 划 线 组 成 。 
。 文 字 常 量 由 一 串 数字 组 成 。 
。 注 释 由 “--” 开 始 ， 并 在 当前 行 尾 结束 。 
* 语句 类 型 为 
赋值 语句 : 
ID := Expression ; 
Expression 是 由 标识 符 、 文 字 常 量 以 及 + 和 -运算 符 组 成 的 中 组 表达 式 结构 ， 其 中 允许 含 
有 括号 。 
输入 /输出 语句 : 


read (List of IDs) ; 
write (List of Expressions) ; 


“begin、end、read 和 write 为 保留 字 。 
。 每 条 语句 以 分 号 (;) 结束 。 程 序 体 由 begin 和 end 界 定 。 
。 源 代码 中 每 行 结尾 添加 一 个 空格 符 ; 因此 ， 词 法 记号 不 能 跨行 。 


2.1 _ Micro 编译 器 结构 


本 章 的 主题 是 一 个 简单 的 Micro 编 译 器 。 该 编译 器 结构 基于 图 1-3 的 描述 。 为 简单 起 见 ， 该 编译 器 采 
用 单 遍 编译 技术 ， 其 最 重要 的 特征 是 不 使 用 显 式 的 中 间 表示 。 各 组 件 间 的 接口 如 下 : 


+ 词法 分 析 器 从 文本 文件 中 该 取 源 程序 并 产生 记号 表示 流 《 在 第 3 训 ， PH 事实 上 ， 在 任意 
时 刻 都 不 必 有 实际 的 流 存在 ， 因 为 词法 分 析 器 实际 上 是 一 个 由 语法 分 析 器 调用 的 函数 ， 每 调用 一 


次 ， 就 产生 一 个 记号 表示 。 

。 语法 分 析 器 处 理 记号 ， 直 到 遇 到 需要 语义 处 理 的 语法 结构 。 它 随后 直接 调用 语义 例 程 。 其 中 有 些 
语义 例 程 在 其 处 理 过 程 中 使 用 记号 表示 。 

. 河 义 例 程 为 一 个 简单 的 三 地 址 虚拟 机 产生 汇编 语言 代码 输出 。 因而 ， 在 Micro 编 译 器 结构 中 没有 优 
化 器 ， 而 代码 生成 也 是 通过 从 语义 例 程 直 接 调用 适当 的 支持 例 程 来 完成 的 。 

。 符号 表 仅 由 语义 例 程 使 用 。 其 接 蝇 在 2.5.5 节 描述 。 


22 Micro ENAR 
Micro 词 法 记号 可 被 形式 化 地 定义 ， 参 见 第 3 章 。 依 照 现在 的 目的 ， 仅 需 一 个 非 形式 化 的 定义 。 创 建 
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$23* 
Micro 编 译 器 的 第 一 步 是 构造 Micro 词 法 分 析 器 。 定 义 枚 举 类 型 token 表 示 Micro 的 词法 记号 集 。 词 法 分 
析 器 将 是 一 个 不 带 参数 ， 返 回 token 类 型 值 的 图 数 。 


typedef enum token types { 
BEGIN, END, READ, WRITE, ID, INTLITERAL, 
LPAREN, RPAREN, SEMICOLON, COMMA, ASSIGNOP, 
PLUSOP, MINUSOP, SCANEOF 

} token; 


extern token scanner (void); 


词法 分 析 器 读 和 字符 并 将 它们 组 成 词法 记号 。 注 意 : 有 时 不 能 读 过 多 的 字符 。 特 别 地 ， 需 要 查看 下 
一 个 记号 的 第 一 个 字符 以 判断 当前 记号 是 否 结束 。 对 于 Micro ， 仅 需 超前 搜索 一 个 字符 。 额 外 的 那个 字 
符 可 使 用 标准 的 ungetc ( ) 函数 方便 地 压 回 输入 流 。 

为 简单 起 见 ， 假 定 输入 来 自 stdin。 实 际 上 应 该 打开 一 一 个 源 文件 并 使 用 一 个 显 式 的 PILE 指 针 ， 

词法 分 析 器 在 被 调用 时 必须 找到 某 个 记号 的 开头 。 为 此 ， 它 检查 下 一 个 输入 字符 。 如 果 该 字符 不 是 
任何 记号 的 开头 ， 则 产生 一 个 词法 或 记号 错误 ， 显示 错误 信息 ， 并 试图 从 错误 中 恢复 。 简 单 的 恢复 方法 
是 忽略 该 字符 并 重新 开始 扫描 。 该 过 程 持续 到 找到 某 个 记号 的 开头 字符 为 止 。 随 后 匹配 可 组 成 一 个 合法 
记号 的 最 长 可 能 字符 序列 。 

图 2-1 给 出 识别 Micro 标 识 符 和 文字 常量 (整数 常量 ) 的 词法 分 析 器 的 主 循 环 。 它 忽略 空白 字符 ( 空 
格 符 、 制 表 符 和 行 结束 标记 )。 为 简单 起 见 ， 假 定 存在 “ 行 结束 ”字符 。 在 C 语 言 中 ,通常 称 之 为 “换行 
符 ”， 并 以 转 义 序列 '\n' 表示 。 即 使 字符 集中 缺少 特定 的 “换行 符 ”，C 语 言 的 输入 /输出 库 也 会 在 遇 到 茶 
种 行 结束 标记 时 返回 '\n'。 












#include <stdio.h> 
#include <ctype.h> 















int in_char, c; 


while ((in_char = getchar()) != EOF) { 
if (isspace(in char)) 
continue; /* do nothing */ 


else if (isalpha(in char)) { 


::- LETTER | ID LETTER 
* | ID DIGIT 
| ID UNDERSCORE 


for (c = getchar(); isalnum(c) || c == '-':; 
c = getchar()) 
ungetc(c, stdin); 


return ID; 
) else if (isdigit(in char)) ( 
N 






* INTLITERAL ::= DIGIT | 
* INTLITERAL DIGIT 
* 


while (isdigit((c = getchar()))) 












ungetc(c, stdin); 


return INTLITERAL; 
} else 
lexical error(in char); 





图 2-1 识别 标识 符 和 整数 常量 的 词法 分 析 器 循环 
在 词法 分 析 器 中 增加 操作 符 、 注 释 和 分 隔 符 等 词法 记号 的 识别 也 很 容易 。 图 2-2 在 图 2-1 的 循环 的 基 
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础 上 添加 了 识别 上 述 记 号 的 代码 。 


#include <stdio.h> 
#include «ctype.h» 


int in char, c; 


while ((in char = getcbar()) != EOF) { 
if (isspace (in | char)) 
/* do nothing */ 
continue; 
else if (isalpha(in char)) 
/* code to recognize identifiers goes here */ 
else if (isdigit(in char)) 
/* code to recognixe int literals goes here */ 
else if (in char == '(') 
return LPAREN; 
else if (in char == ’)’) 
return RPAREN; 
else if (in char zx ';') 
return SEMICOLON; 
else if (in char == ',') 
return COMMA; 
else if (in char == ‘+’ ) 
return PLUSOP: 
else if (in char == ':') I 
/* looking for ":=" */ 
c = getchar(): 
if (c == 'z') 
return ASSIGNOP; 
else ( 
ungetc(c, stdin); 
lexical error(in char); 


} 
) else if (in char == '-') { 
/* looking for --, comment start */ 


if (c == '—) t 
while ((in char = getchar()) != "Anl ) : 

} else { 
ungetc(c, stdin); 
return MINUSOP; 

} 

) else 
lexical error(in char); 





图 2-2 加 入 用 来 识别 操作 符 、 注 释 和 分 隔 符 的 新 代码 的 词法 分 析 器 循环 


在 Micro 词 法 分 析 器 中 尚未 包含 对 保留 字 的 识别 。 问 题 当然 在 于 保留 字 看 起 来 和 标识 符 没 有 什么 不 
同 。 保 留 字 也 许 需要 以 某 种 特殊 方式 来 标记 《例如 ， 将 它们 放 在 引号 中 或 者 以 大 写字 母 表示 ) ， 但 这 种 
方法 对 程序 员 来 说 很 麻烦 ， 因 此 我 们 宁愿 不 用 这 种 方法 。 有 两 种 普遍 使 用 的 方法 可 用 于 区 分 标识 符 和 保 
留 字 。 在 第 一 种 方法 中 ， 词 法 分 析 器 拥有 一 张 保留 字 表 。 每 当 一 个 标识 符 被 识别 时 ， 词法 分 析 器 都 会 检 
查 保 留 字 表 ， 如 果 一 个 记号 在 此 表 中 ， 则 它 总 会 被 解释 成 保留 字 而 不 是 标识 符 。 而 在 另 一 种 方法 中 ， 保 
留 字 作 为 编译 器 符号 表 的 初始 部 分 ， 含 有 特殊 属性 reserved。 词 法 分 析 器 在 识别 一 个 标识 符 后 ， 在 符号 
表 中 查找 该 标识 符 。 如 果 找 到 ， 并 且 含 有 该 特殊 属性 ， 就 将 它 识别 为 保留 字 。 

对 于 Micro， 两 种 方法 都 可 行 。 假 定 词法 分 析 器 有 一 个 例 程 check_reserved( ) ， 该 例 程 返回 当前 
被 识别 的 标识 符 的 正确 记号 类 (ID 或 者 某 个 保留 字 )。 然 而 ， 图 2-1 中 识别 标识 符 的 词法 分 析 器 代码 不 适 
合 使 用 这 种 方式 发 现 保留 字 。 在 进行 词法 分 析 时 ， 我 们 未 提供 任何 措施 来 保存 已 扫描 过 的 记号 中 的 字符 。 
对 非常 简单 的 记号 ， 像 操作 符 或 分 隔 符 ， 知 道 记号 类 别 就 足够 了 。 对 于 其 他 的 记号 ， 例如 标识 符 和 文字 
常量 ， 需 要 知道 该 记号 的 实际 文本 。 为 此 ， 调 用 例 程 buffer_char()， 将 其 参数 加 入 一 个 称 为 
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token buffer 的 字符 缓冲 区 中 。clear_buffer( ) 把 字符 缓冲 区 重 置 为 空 字符 串 。 该 缓冲 区 对 编译 器 
的 任何 部 分 都 可 见 ， 并 总 是 包含 最 近 扫描 过 的 记号 文本 。 在 本 章 的 示例 编译 器 中 ， 我 们 特别 感 兴趣 的 是 
由 语义 例 程 使 用 token buffer, check _reserved() 也 使 用 该 缓冲 区 中 的 字符 来 确定 一 个 看 起 来 像 标 
识 符 的 记号 是 否 是 保留 字 。 

我 们 还 必须 决定 如 何 处 理 文件 的 结尾 。 语法 分 析 器 必须 知道 何 时 输入 被 用 完 ， 以 便 证 实 已 经 完成 对 | 
一 个 完整 程序 的 分 析 ， 因 此 创建 一 个 称 为 SCANEOF 的 文件 结束 记号 。 在 语法 分 析 算 法 的 形式 描述 以 及 语 
法 分 析 器 生成 器 中 ， 该 记号 通常 用 “$” 表 示 。 但 是 ,“$” 在 任何 典型 的 程序 设计 语言 中 并 不 是 有 效 的 
枚 举 文 字 常 量 ， 因 此 我 们 使 用 SCANEOF 来 代替 它 。 一 旦 调用 词法 分 析 器 时 feof (stdin ) 为 真 ， 则 
SCANEOF ti 3 [nl 

图 2-3 包 含 词法 分 析 器 主 例 程 的 完整 代码 。 其 中 术 包 全 该 例 程 使 用 的 辅助 例 各 (如 buffer_char() 等 )。 














#include <stdio.h> 
/* character classification macros */ 
#include «ctype.h». 


extern char token buffer[]: 
token scanner(void) 
{ 


int in_char, c; 


clear buffer(); 
if (feof(stdin)) 
return SCANEOF; 









while ((in char = getchar()) != EOF) { 
if (isspace (in char)) 
continue; /* do nothing */ 






else if (isalpha(in : char)) ( 
* 































* ID : := LETTER | ID LETTER 

* | | ID DIGIT 

* | ID UNDERSCORE 
*/ 


buffer char(in. char); 
for (c : z getchar(): isalnum(c) | c == '.'; 
c = getchar ()) 
buffer charí(c): 
ungetc(c, stdin); 
return check . reserved (); 
} else if (isdigit (in char)) ( 


* INTLITERAL ::- DIGIT | 
INTLITERAL DIGIT 






buffer char (in char); 
for (c: = getchar(); . isdigit (c): 
c = getchar()) 
buffer char(c):; 
ungetc(c, stdin); 
return INTLITERAL; 
) else if (in char == ' (*) 
return LPAREN; 
else if (in char == ')') 
return RPAREN; 


else if (in char = ' ;') 
return SEMICOLON; 
else if (in char == ',') 


return COMMA; 
else if (in char mm 4) 
return PLUSOP; 
else if (in char == rs’) (C6 
/* looking for ":-" */ 


图 2-3 完整 的 Micro 词 法 分 析 器 函数 
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return ASSIGNOP; 

else ( 
ungetc(c, stdin); 
lexical error(in char): 


) eise if (in char == '—') { 
/* is it 一 一 ， comment start */ 
c = getchar(); 
if (c == '—') { 
do 


in char = getchar (); 
while (in char != 'WMn'); 
) else ( 
ungetc(c, stdin); 
return MINUSOP; 
} 
} else 
lexical_error(in char); 
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2.3 Micro 语 法 


在 本 节 中 ， 不 会 非 形式 化 地 定义 Micro 语 法 ， 而 是 将 使 用 上 下 文 无关 文 法 (Context-Free Grammar, 
CFG) 给 出 Micro 的 严格 定义 。CFG 有 了 时 也 被 称 为 BNF (Backus-Naur form， 巴 科斯 -诺尔 范式 ) 文法 。 

通俗 地 说 ，CFG 就 是 一 组 重 写 规则 或 产生 式 (production)。 产 生 式 的 形式 为 

A>BCD.::-Z 

A 是 产生 式 的 堪 部 (Left-Hand Side, LHS); BCD…zZ 组 成 产生 式 的 右 部 (Right-Hand Side, RHS ) 。 
每 个 产生 式 的 堪 部 仅 有 一 个 符号 。 其 右 部 可 以 有 任意 数量 的 符号 〈 零 个 或 者 多 个 ) 。 产 生 式 代表 了 一 个 
规则 ， 即 其 左 部 文法 符号 可 由 其 右 部 文法 符号 代替 。 因 此 产生 式 

«program» — begin «statement list» end 


规定 一 个 程序 必须 是 由 begin 和 end 所 界定 的 语句 列表 。 

在 CEFG 中 可 以 出 现 两 种 文法 符号 : 非 终 结 符 (nonterminal) -和 终结 符 (terminal), ABH, FEA 
符 通常 由 “<” 和 “>” 限 定 以 易于 识别 。 不 过 ， 非 终结 符 也 可 由 它们 出 现在 产生 式 左 部 来 识别 。 非 终结 
符 实际 上 是 占 位 符 。 所 有 非 终 结 符 必须 根据 以 它 作为 左 部 的 产生 式 来 替换 或 重 写 。 相 反 、 终 结 符 从 不 被 
改变 或 重 写 。 它 们 代表 语言 的 词法 记号 (token)。 因 此 ， 一 组 产生 式 (一 个 CFG ) 的 全 部 目的 就 是 指定 
哪些 终结 符 ( 词法 记号 ) 序列 是 合法 的 。CFG 用 一 种 非常 优雅 的 方式 完成 这 个 目标 : 由 一 个 称 为 开始 符 
(start) 或 目标 符号 (goal) 的 非 终结 符号 开始 ， 随后 应 用 产生 式 重 写 非 终结 符 ， 直 到 仅 剩 下 终结 符 。 
任何 可 由 此 产生 的 终结 符 序列 都 被 认为 是 合法 的 。 类 似 地 ， 如 果 一 个 终结 符 序 列 不 能 由 任何 非 终结 符 替 
换 序列 产生 ， 则 该 序列 被 认为 是 非法 的 。 为 了 明白 这 个 过 程 如 何 起 作用 ， 让 我 们 看 一 下 Micro 的 一 个 
CFG。4 代 表 空 或 空 字符 申 。 因 此 ， 产 生 式 A 一 和 规定 A 可 被 空 字符 串 替 换 ， 实 际 上 就 是 被 消去 。 

程序 设计 语言 结构 通常 含有 可 选项 或 者 项 列表 。 为 了 清晰 地 表示 这 样 的 特性 ， 通常 利用 扩展 BNF 记 
号 (extended BNF notation)。- 可 选项 序列 由 方 括号 “[” 和 “]” 括 起 来 ， 例 如， 在 产生 式 - 
«program» — [ID :] begin «statement list» end 


中 ,程序 有 一 个 可 选 的 标号 。 可 选 的 项 列表 由 大 括号 “{” 和 “}” 括 起 来 。 因 此 在 产生 元 
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«statementlist» -> «statement» («statement») 
H, IBS XE X279 — REDRAR RAS ARRAS. 

扩展 BNF 与 普通 BNF 有 着 相同 的 定义 能 力 。 特 别 地 ， 可 使 用 下 列 转换 将 扩展 BNF 映 射 为 标准 形式 。 
可 选 序列 由 产生 和 或 序列 项 的 新 非 终结 符 替换 。 类 似 地 ， 可 选 列表 由 一 个 新 非 终结 符 替 换 ， 该 非 终结 符 
产生 入 或 列表 项 接着 该 非 终 结 符 。 因 此 语句 列表 可 转换 为 


<Sstatement jist> — <statement> «statement tail» 
<statementtail> 一 A 
<statementtail> — «statement» «statement tail> 


扩展 BNF 的 优点 是 更 紧 凌 易 读 。 可 以 想像 一 个 预 处 理 器 取 扩 展 BNF 作 为 输入 ， 使 用 上 面 这 些 转换 方法 产 
条 标准 BNFE。 | 
图 2-4 给 出 Micre 的 扩展 CFG 。 一 个 拓 广 产生 式 : 
«system goal» — «program» SCANEOF 


由 现在 文法 中 ， 以 确保 由 <system goal> 匹 配 的 字符 串 包含 了 所 有 输入 。 它 指定 文件 结束 标记 
SCANEOF 必 须 紧 随 程序 的 最 后 一 个 有 效 词法 记号 。 









1. «program» — begin «statement list» end 

2.  «statementlist- ^ — «statement» («statement») 

3. «Statement» — ID := «expression» ; 

4. — «statement- — read ( «id list» ) ; 

5. «statement» — write ( «expr list» ) ; 

6.  «idlist» — ID {, 1D} 

7. <expr list> — <expression> {, <expression>} 
8. «expression» — «primary» («add op» <primary>} 
9. «primary» — ( «expression» ) 


10. «primary» — ID 

11. «primary» — INTLITERAL 
12. <add op> — PLUSOP 

13. <add op> — MINUSOP 


14. «system goal» — «program» SCANEOF 


图 2-4 定义 Micro 的 扩展 CFG 


为 了 明白 该 文法 如 何 定 义 合法 的 Micro 程 序 ， 让 我 们 从 非 终 结 符 <program> 开 始 ， 推 导 这 样 一 个 程 
JE, begin ID := ID + (INTLITERAL - ID); end. 


«program» 


begin «statement list» end (Apply rule 1) 

begin «statement» («statement») end (Apply rule 2) 

begin «statement» end | (Choose 0 repetitions) 
begin ID := «expression» ; end (Apply rule 3) 

begin ID := «primary» («add op» «primary») ; end (Apply rule 8) 

begin ID := «primary» «add op» «primary» ; end (Choose 1 repetition) 
begin ID := «primary» + «primary» ; end (Apply rule 12) 
begin ID := ID + «primary» ; end (Apply rule 10) 
begin ID := ID + ( «expression» ) ; end (Apply rule 9) 

begin ID := ID + ( «primary» {<add op» «primary») );end (Apply rule 8) 

begin ID := ID + ( «primary» «add op» «primary» ) ; end (Choose 1 repetition) 
begin ID := ID + ( «primary» 一 «primary» ) ; end (Apply rule 13) 
begin ID := ID + ( INTLITERAL ~ «primary» ); end (Apply rule 11) 
begin ID := ID + ( INTLITERAL ~ ID ) ; end (Apply rule 10) 


现在 ， 没 有 剩 下 非 终结 符 ， 因 此 上 面 Micro 程 序 的 推导 完成 。 


CFG 定 义 一 个 语言 ， 即 词法 记号 序列 的 集合 。 


能 用 文法 推导 出 的 任意 词法 记号 序列 都 是 有 效 的 ; 反 


之 则 是 无 效 的 。 事 实 上 ， 严 格 地 说 ， 从 CEFG 推 导出 的 任意 词法 记号 序列 都 被 认为 是 语法 上 有 效 的 。 当 语 
义 例 程 检查 静态 语义 时 ， 可 发 现 语 法 上 有 效 的 程序 所 包含 的 语义 错误 。 例 如 ，Pascal 语 言 的 语句 


A := "X' + True; 
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设 有 语法 错误 ,但 是 含有 一 个 语义 错误 : “+” 操 作 符 不 是 用 来 将 字符 与 布尔 值 相 加 的 。 

在 CFG 中 既 可 以 定义 语法 ， 又 可 以 定义 结构 。 对 于 表达 式 ， 这 包括 结合 性 (associativity) 和 运算 
符 优先 级 《operator precedence)。 结 合 性 关系 到 应 用 连续 操作 符 实例 的 顺序 (如 在 A-B-C 中 )。 运 算 符 
优先 级 是 指 操作 符 的 相对 优先 级 。 例 如 ， 我 们 期 望 A+B*C 表 示 A+(B*C)， 是 因为 通常 认为 “*” 比 “+” 
有 更 高 的 优先 级 。Micro 仅 有 一 个 优先 级 层次 ， 因 为 它 不 包含 乘法 。 如 果 包 含 乘法 ， 则 它 应 该 比 加 法 的 
优先 级 更 高 。 下 列 文法 片段 定义 了 这 样 的 优先 级 关系 。 

«expression» — «factor» («add op» <factor>} 

«factor» — «primary» («mult op» «primary» 

«primary» — ( «expression» ) 


«primary» 一 ID 
«primary» ”一 INTLITERAL 


分 析 由 该 文法 片段 推导 出 的 表达 式 A+B*C 的 推导 树 (〈deiivation tree)， 可 以 说 明 该 定义 如 何 工作 。 
推导 树 以 非 终结 符 的 扩展 作为 其 子 树 。 图 2-5 给 出 上 面 表达 式 的 推导 树 。 该 树 显 示 “*” 比 “+ ”有 更 高 
的 优先 级 ， 因 为 第 二 个 和 第 三 个 ID (由 “*”) 组 合 在 一 棵 子 树 中 ， 而 该 子 树 又 和 第 一 个 ID (由 “+ ) 组 
合 在 主推 导 树 中 。 


<expression> 
<factor> <factor> 
ae op» 
+ 
<primary> <primary> <primary> 
^ op» | 
ID ID * ID 


图 2-5 A+B*C 的 推导 树 


在 该 文法 中 可 以 形成 一 棵 有 错误 优先 级 的 推导 树 吗 ?答案 是 否定 的 ， 因 为 产生 式 规则 不 允许 。 试 着 
构造 ID+ID*ID， 其 中 先 应 用 “+”。 由 于 “*” 仅 可 由 <factor> 生 成 ， 因此 ID+ID 必 须 出 现在 以 <primary> 
为 根 的 子 树 中 。 然 而 ，<primary> 不 能 生成 ID+ID ， 除非 将 它 放 在 括号 中 。 通 过 括号 可 以 强制 结合 ， 如 
图 2-6 所 示 。 


2.4 递归 下 降 语 法 分 析 


Micro 语 法 分 析 器 使 用 一 种 著名 的 语法 分 析 技 术 ， 称 为 递归 下 降 (recursive descent). AAFREA 
递归 语法 分 析 例 程 ， 实 际 上 ， 在 处 理 一 个 程序 时 ， 它 下 降 遍 历 所 识别 的 分 析 树 。 递 归 下 降 是 用 于 实际 编 
译 器 中 的 最 简单 的 语法 分 析 技术 之 一 。 递 归 下 降 语法 分 析 的 基本 思想 是 : 每 个 非 终结 符 都 有 一 个 相关 的 
语法 分 析 过 程 (parsing procedure) 用 以 识别 由 该 非 终结 符 生 成 的 任意 词法 记号 序列 。 在 语法 分 析 过 程 
由 ， 非 终结 符 和 终结 符 都 能 被 匹配 。 为 匹配 非 终 结 符 A， 调 用 A 所 对 应 的 语法 分 析 过 程 。 按 照 惯例 ， 该 
分 析 过 程 也 命名 为 A。 这 些 调用 可 以 是 递归 的 ， 因 此 称 为 递归 下 降 方 法 。 为 匹配 终结 符号 t， 调 用 过 程 
match(t)。match( ) 调 用 词法 分 析 器 获得 下 一 个 词法 记号 。 如 果 是 t， 则 一 切 正常 ， 且 该 记号 被 存放 在 
名 为 current_token 的 全 局 变量 中 。 如 果 该 记号 不 是 t+， 则 发 现 了 一 个 语法 错误 ， 产 生 错 误 信息 ， 并 进 
行 一 些 错误 修正 或 补救 以 重新 开始 语法 分 析 并 继续 进行 编译 。 

为 了 明白 该 过 程 如 何 工 作 ， 考 虚 为 对 应 Micro 文 法 产生 式 所 编写 的 语法 分 析 例 程 。 通 过 调用 
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«system goal> 所 对 应 的 过 程 局 动 语法 分 析 问 : 


void system_goal (void) 

{ . 
/* «system goal» ::- «program» SCANEOF */ 
program(): | 
match (SCANEOF) ; 

} ` 


也 就 是 说 ， 为 了 正确 分 析 一 个 Micro 程 序 ， 必 须 匹 配 由 <program> 生 成 的 词法 记号 序列 ， 其 后 紧 随 一 个 
SCANEOF 。 类 似 地 ， 对 于 <program>， 有 以 下 过 程 : 


void program (void) 


( 


/* «program» ::- BEGIN «statement list» END */ 
match (BEGIN) ; 
statement list (); 
match (END) ; 
) 
«expression» 
«factor 


/ 


«primary» «primary» 
lw op» 


* 








( ) ID 


«factor» «factor» 
| «add op» 








图 2-6 (A+B)*C 的 推导 树 


对 于 <statement list>， 必 须 决定 怎样 处 理 可 选 的 语句 序列 。 令 next_token( ) 是 返回 下 一 个 要 匹 
本 的 词法 记号 的 函数 。 如 果 next_token( ) 可 作为 从 非 终结 符 <statement> 生 成 的 第 一 个 〈《 即 最 左边 的 ) 
词法 记号 ， 则 试图 识别 可 选 的 语句 。 否 则 ， 我 们 断定 已 经 匹配 了 一 个 完整 的 语句 列表 。 这 种 方法 并 不 对 
所 有 的 CEFG 有 效 ， 但 CFG 的 子 集 一 一 LL(1) 文 法 却 非常 适合 于 递归 下 降 语 法 分 析 。 LL(1) 文 法 及 其 分 析 将 
在 第 5 章 详细 讨论 。 f 

如 何 确 定 哪些 词法 记号 可 由 一 个 非 终 结 符 作 为 首 记 号 推导 出 呢 ? 我 们 将 在 第 5 章 说 明 如 何 自 动 计算 
这 些 词 法 记号 。 但 对 于 像 Micro 这 样 很 小 的 CFG ， 这 项 工作 可 由 手工 检查 完成 。 假 定 想得到 非 终结 符 A 的 
所 有 普 记 号 。 将 此 记号 集 表示 为 First(A)。 选 择 由 A 作为 左 部 的 所 有 产生 式 。 对 于 每 个 这 样 的 产生 式 ， 简 
单 地 检查 它 右 部 的 最 左 符号 。 如 果 该 符号 是 终结 符 ， 将 其 加 入 First(A)。 如 果 该 符号 是 非 终结 符 B， 计 算 
First(B) ， 将 结果 加 入 First(A) 。 对 于 <statement>， 情况 比较 简单 ， 因 为 <statement> 的 所 有 产生 式 以 终 
结 符 开 始 。 相 应 的 语法 分 析 过 程 如 下 : 


void statement_list (void) 


{ 





— 4 hij JE he sf a 


/* 
* «statement list» ::= «statement» 
* ( «statement» ) 
fo 
statement () ; 
while (TRUE) 1 
switch (next token()) { 
case ID: 
case READ: 
case WRITE: 
statement (); 
break; 
default: 
return; 
} 
) 
) 


在 <statement> 所 对 应 的 语法 分 析 过 程 定义 中 ， 出 现 了 <statement> 位 于 多 条 产生 式 左 部 的 情况 。 
因此 ， 必 须 决定 匹配 哪 一 个 产生 式 。 为 此 ， 必 须 仔 细 分 析 每 个 产生 式 可 能 产生 什么 。 考 虑 相应 于 每 个 
<statement> 产 生 式 的 First 集 。 如 果 这 些 集 合 对 于 每 个 产生 式 均 惟一 ， 则 可 做 出 惟一 选择 一 一 选择 在 其 
First 集 中 包含 hext_token( ) 的 那 条 产生 式 。 如 果 某 产生 式 右 部 为 入， 则 当 没 有 其 他 产生 式 被 选中 时 ， 
将 其 作为 默认 情况 进行 匹配 (显然 产生 空 的 First 集 )。 如 果 next_token( ) 未 出 现在 任何 一 个 First 集 中 ， 


并 且 没 有 和 产生 式 ， 则 产生 一 个 语法 错误 ， 因 为 没有 产生 式 可 以 匹配 下 一 个 词法 记号 。 


并 非 在 所 有 CFG 中 ， 共 享 相同 左 部 符号 的 产生 式 都 可 基于 它们 的 首 记 号 集 被 区 分 。 然 而 ，LL(D 文 


法 确实 有 此 性 质 ， 这 也 是 它们 适 于 递归 下 降 语 法 分 析 的 原因 ，。 


<statement> 以 及 其 余 的 Micro 语 法 分 析 过 程 在 图 2-7 中 一 并 给 出 ， 它 们 都 使 用 本 节 介 绍 的 技术 来 构造 。 


void statement (void) 
{ 





token tok = next token(); 










switch (tok) { 
case ID: 

/* «statement» ::= ID := «expression» ; */ 
match(ID); match (ASSIGNOP) ; 

expression(); match (SEMICOLON) ; 

break; 












case READ: 
/* <statement> ::= READ ( «id list» ) ; */ 
match(READ); match (LPAREN) ; i 
id_list(); match (RPAREN) ; 
match (SEMICOLON) ; 

break; 












case WRITE: 
-~ Jk «statement» ::- WRITE ( <expr list» ) ; */ 
match (WRITE); match (LPAREN) ; 





expr_list(); match (RPAREN) ; 
match (SEMICOLON) ; 
break; 










default: 
syntax error (tok); 
break; 






) 





) 
| void id list (void) 
{ 






/* «id list» ::= ID ( , ID ) */ 
match (ID); 









图 2-7 Micro 的 其 余 语 法 分 析 过 程 
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while (next token() == COMMA) { 
match (COMMA) : 
match (ID) ; 
} , 
} 


void axpression (void) 
{ 
token t; 


/* 
* «expression» : := «primary» 
7 { «add op» «primary» ) 
* 
primary (); 
for (t » next token(); t == PLUSOP | t == MINUSOP; 
t = next token()) 1 
add op): 
primary (); 


} 


void expr_list (void) 
{ 
/* <expr list> ::= <expression> { , <expression> } */ 
expression (); 


while (next_token() == COMMA) { 
match (COMMA) ; 
expression () ; 


) 


void add op(void) 


i 
token tok = next token(); 


/* <addop> ::* PLUSOP | MINOSOP */ 
if (tok == PLUSOP || tok == MINUSOP) 
match (tok); 
else | 
syntax error(tok); 
) 
void primary (void) 
{ 
token tok = next token(); 


switch (tok) { 
case LPAREN: 
/* «primary» ::= ( «expression» ) af 
match (LPAREN); expression(): 
match (RPAREN) ; 
break; 


case ID: 
/* «primary» ::= ID */ 
match (ID) ; 
break; 


case INTLITERAL: 
/* «primary» ::= INTLITERAL */ 
match (INTLITERAL) ; 
break ; 


default: 


syntax_error (tok) ; 
break; 


图 2-7 (&) 
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.2.5 翻译 Micro 


2.5.1 目标 语言 


现在 准备 好 开始 Micro 的 实际 翻译 工作 。 首 先 ， 必 须 确定 为 何 种 机 器 以 及 以 何 种 形式 (汇编 代码 、 
目标 模块 或 诸如 此 类 的 形式 ) 生成 代码 。 为 简单 起 见 ， 使 用 三 地 址 机 器 的 汇编 代码 。 这 种 机 器 的 指令 形 
OP A,B,C 
其 中 OP 是 操作 码 (或 伪 操 作 码 )，A 和 B 标 明 特定 操作 的 操作 数 ，C 指 定 操作 结果 的 存放 位 置 。 操 作 数 可 
以 是 变量 名 或 整数 文字 常量 。 对 于 某 些 OP， 可 能 不 使 用 A 或 B 或 C (例如 ， 停 机 指令 就 是 简单 的 Halt )。 
输出 的 汇编 码 格式 是 字符 串 。 对 于 Micro， 假 定 所 有 算术 运算 操作 都 使 用 整数 运算 。 
该 目标 代码 适合 于 简单 的 虚拟 机 ; 它 可 以 用 来 驱动 一 个 解释 器 ， 或 者 每 条 指令 可 由 一 个 更 复杂 的 代 
码 生 成 器 扩展 成 真正 机 器 的 代码 。 事 实 上 ， 我 们 的 目标 代码 与 常用 的 中 间 表 示 一 一 四 元 式 《 quadruple) 
非常 相似 。 这 一 点 说 明了 虚拟 指令 集 的 一 个 有 趣 性 质 : 视 其 用 途 ， 它 们 既 可 被 看 作 中 间 表 示 ， 又 可 被 看 
作 编译 器 的 输出 。 | 


2.5.2 临时 变量 


在 编译 过 程 中 ， 常 常 需要 使 用 临时 分 配 的 存储 位 置 ， 称 为 临时 变量 (temporary ) ， 来 存放 计算 的 中 
间 结 果 。 对 于 Micro 编 译 器 ， 临 时 变量 是 在 需要 时 隐 式 声明 的 内 部 变 重 。 因 为 Micro 中 的 普通 变 晤 也 是 隐 
式 声明 的 ， 所 以 这 种 技术 工作 得 很 好 。 更 实际 的 语言 编译 器 常 将 寄存 器 用 作 临时 变量 ， 但 也 可 能 为 特殊 
目的 使 用 存储 器 临时 变量 〔 即 内 存 位 置 ， 如 在 Micro 编 译 器 中 所 使 用 的 那些 临时 变量 ) ， 例 如 ， 当 没有 寄 
存 器 可 用 或 在 过 程 调 用 之 前 需要 保存 当前 寄存 器 值 的 时 候 。 我 们 约定 作为 临时 变量 使 用 的 内 部 变量 以 
Temp&N 的 形式 表示 ， 其 中 N 是 临时 变量 的 索引 ， 从 1 开始 。 由 于 “&” 不 能 出 现在 普通 Micro 变 量 名 中 ， 
因此 普通 变量 和 临时 变量 不 会 产生 命名 冲突 。 


2.5.3 动作 符号 


如 第 1 章 所 述 ， 大 部 分 翻译 工作 由 语法 分 析 器 调用 的 语义 例 程 来 完成 。 何 时 调用 给 定 的 语义 例 程 由 
编译 器 作者 决定 。 可 通过 在 文法 中 添加 动作 符号 (action symbol) 来 指定 何 时 进行 语义 处 理 。 动 作 符号 
在 下 面 的 示例 中 由 #name 表 示 ， 它 们 可 被 放 在 产生 式 右 部 的 任意 位 置 。 每 个 动作 符号 都 对 应 一 个 语义 例 
程 。 例 如 ， 动 作 符号 #add 对 应 名 为 add( ) 的 语义 例 程 。 当 创建 语法 分 析 过 程 时 ， 将 在 原 动 作 符号 所 在 的 
位 置 上 插入 语义 例 程 的 调用 或 是 内 联 的 代码 段 ， 以 完成 语义 处 理 。 如 果 包 含 动作 符号 的 文法 作为 语法 分 
析 器 生成 器 的 输入 ， 生 成 器 必须 在 生成 的 表格 中 包含 适当 的 信息 ， 以 便 在 语法 分 析 过 程 的 相应 时 刻 触 发 
语义 例 程 的 调用 。 

动作 符号 对 由 CFG 驱 动 的 语法 分 析 器 所 识别 的 语言 没有 影响 。 因 此 ， 它 们 实际 上 不 是 由 CFG 所 指定 
的 语法 的 组 成 部 分 。 在 此 语 境 中 ， 动 作 符 号 用 来 “注释 ”CFG， 指 示 何 时 需要 执行 语义 动作 。 当 CFG 用 
作 语法 分 析 器 生成 器 的 输入 时 ， 动 作 符号 就 不 仅仅 是 注释 。 它 们 告诉 语法 分 析 器 生成 器 何 时 调用 相应 的 
语义 例 程 。 





2.5.4 语义 信息 


在 语义 例 程 的 设计 中 ， 一 个 重要 的 问题 是 它们 操作 的 数据 和 生成 信息 的 规范 。 我 们 的 方法 是 将 一 个 
语义 记录 (semantic record) 与 每 种 文法 符号 《ID、 INTLITERAL、<expression> 等 ) IKK. TA 
同 的 符号 都 会 有 一 个 独特 的 包含 该 符号 适当 信息 的 记录 。 同类 符号 的 每 次 出 现在 其 语义 记录 中 都 会 有 相 
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同类 型 的 数据 。 因 此 ，ID 能 以 区 别 于 INTLITERAL 的 不 同 种 类 的 数据 表示 ， 但 所 有 ID 的 语义 记录 将 会 有 
相同 的 格式 。 如 果 某 个 符号 不 需要 语义 数据 ， 它 可 以 有 空 的 语义 记录 。 例 如 ， 分 号 就 不 需要 语义 记录 。 

终结 符 的 语义 记录 包含 该 记号 的 token_buffer 及 其 导出 值 。 例 如 ，INTLITERAL 的 值 被 表示 为 整 
型 对 象 ， 由 词法 记号 文本 导出 。 语 法 分 析 器 成 功 地 将 一 个 词法 记号 与 所 期 望 的 终结 符号 匹配 后 ， 调 用 语 
义 例 程 产生 这 样 一 个 记录 。 

语义 例 程 通过 访问 某 个 产生 式 右 部 任意 符号 的 信息 来 创建 该 产生 式 左 部 非 终 结 符 的 语义 记录 。 如 采 
产生 式 右 部 的 某 些 符 号 为 非 终结 符 ， 则 这 些 符号 的 语义 记录 来 自 它们 各 自 产生 式 中 特定 的 语义 例 程 。 为 
了 明白 这 种 机 制 是 如 何 工 作 的 ， 考 虑 

«expression» — «primary» + «primary» #add 
产生 式 右 部 的 每 个 <primary> 都 将 产生 一 个 语义 记录 。 这 些 语义 记录 记录 每 个 操作 数 相关 的 数据 〈 例 如 ， 
它 存储 在 哪里 ， 值 是 多 少 )。 当 调用 adqd( NE, 必须 给 出 这 些 记 录 作 为 参数 。 这 些 记录 用 来 产生 适当 的 
代码 ， 随 后 产生 相应 于 <expression> 的 新 的 语义 记录 ， 其 中 包含 了 刚 被 处 理 过 的 表达 式 的 必要 信息 。 

使 用 递归 下 降 语法 分 析 器 时 ， 这 些 语义 记录 可 以 作为 语法 分 析 例 程 的 局 部 变量 存储 。 包 含 非 终结 符 
号 语义 信息 的 记录 可 作为 结果 参数 由 相应 的 语法 分 析 例 程 返 回 。 使 用 表 驱 动 的 语法 分 析 器 时 ， 需 要 一 个 
显 式 的 语义 栈 (semantic stack)， 用 以 在 语义 例 程 调用 之 间 存 储 语 义 记录 ， 如 第 8 章 所 述 。 

为 了 定义 语义 记录 ， 检查 CFG 中 的 每 个 符号 并 根据 情况 决定 一 个 符号 究竟 需要 什么 样 的 语义 信息 。 
图 2-8 给 出 翻译 Micro 所 需 的 语义 记录 op_rec 和 expr_rec。( 在 expr_rec 中 首次 使 用 匿名 联合 ， 它 不 属 
TECH B. 



















define MAXIDLEN 33 
typedef char string[MAXIDLEN]; 


typedef struct operator { /* for operators */ 
enum op { PLUS, MINUS } operator; 
} op rec; 






/* expression types */ 
enum expr ( IDEXPR, LITERALEXPR, TEMPEXPR ): 


/* for «primary» and «expression» */ 
typedef struct expression { 
enum expr kind; 


union ( 
string name; /* for IDEXPR, TEMPEXPR */ 
int val: /* for LITERALEXPR */ 








)] expr rec; 


图 2-8 Micro 文 法 符号 的 语义 记录 

所 有 其 他 的 符号 不 需要 相关 语义 信息 ， 因 而 它们 的 语义 记录 为 空 。 考 虑 到 效率 ， 空 记录 不 在 任何 地 
方 显 式 定义 和 存储 。 然 而 ， 如 果 确 定 需 要 额外 的 数据 ， 也 可 以 向 语义 记录 中 添加 新 的 域 。 在 确定 语义 记 
录 时 ， 我 们 其 实 是 在 决定 语义 例 程 将 含有 什么 参数 。 


2.5.5 Micro 动作 符号 
图 2-9 列 出 一 个 包含 动作 符号 的 Micro 的 CFG。 相 比 先前 的 文法 ， 其 中 添加 了 一 个 产生 式 : 


«ident» — ID #process_id | 
该 产生 式 非常 有 用 ， 因 为 在 先前 的 文法 里 ， ID 出 现在 许多 不 同 的 上 下 文中 ， 而 我 们 需要 在 语法 分 析 器 匹 
配 ID 的 任意 一 次 出 现 之 后 立即 调用 process_id() (以 访问 token_buffer 中 的 字符 并 创建 适当 的 语义 
记录 )。 将 文法 中 出 现 的 所 有 ID 替换 为 <ident>， 就 可 以 保证 总 会 调用 process_id()。 


一 个 商学 编 理 器 


<program> 
«statement list» 
«statement» 
«statement» 
«statement» 
«id list» 

«expr list» 


— #start begin «statement list» end 

— «statement» («statement») 

— «ident» := «expression» #assign ; 

— read ( «id list» ) ; 

— write ( «expr list» ) ; 

— «ident» #read_id (, «ident» tread id] 
— «expression» #write_expr 
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(, «expression» #write_expr} 
— «primary» 

(«add op» «primary» ftgen infix) 
— ( «expression» ) 


«expression» 


«primary» 
«primary» 
«primary 
«add op» 
«add op» 


— «ident» 

— INTLITERAL stprocess literal 
— PLUSOP process op 

— MINUSOP itprocess op 
«ident» — ID #process_id 

— «program» SCANEOF #finish 


«system goal» 





图 2-9 带 有 动作 符号 的 Micro 文 法 


我 们 的 编译 器 中 将 利用 一 些 辅助 例 程 : generate( ) 取 四 个 字符 串 作 为 参数 ， 分 别 对 应 操作 码 、 两 
个 操作 数 和 结果 域 。 它 将 在 输出 文件 中 产生 经 过 正确 格式 化 的 指令 。extract ( ) 取 语义 记录 作为 参数 并 
返回 其 中 包含 的 语义 信息 所 对 应 的 字符 串 。 该 字符 串 可 以 是 一 个 标识 符 、 操 作 码 或 文字 沼 量 等 。 提 取出 
的 信息 传 给 generate( ) 以 创建 一 条 完整 的 指令 。 

因为 Micro 很 简单 ， 所 以 符号 表 例 程 也 很 简单 。 例 如 ， 不 需要 存储 任何 类 型 信息 作为 标识 符 的 属性 ， 
因为 所 有 标识 符 都 代表 整 型 变量 。 由 于 产生 的 汇编 语言 指令 可 指示 汇编 程序 为 变量 分 配 存储 空间 ， 因 此 
也 不 需要 记录 任何 地 址 信息 作为 标识 符 的 属性 。 事 实 上 ， 这 里 没有 使 用 任何 显 式 属性 。 对 于 标识 符 ， 我 


们 感 兴趣 的 惟一 信息 是 它 是 否 已 经 在 符号 表 中 ， 由 此 编译 器 将 知道 是 否 十 要 生成 进行 空间 分 配 的 指令 ， [ 41 | 


符号 表 例 程 的 规范 为 


/* Is s in the symbol table? */ 
extern int lookup(string 8); 


/* Put s unconditionally into symbol table. */ 
extern void enter(string s): 


由 许多 语义 例 程 所 使 用 的 辅助 例 程 check_id( ) 为 : 


void check_id(string s) 


i - 
if (! lookup(s)) ( 
enter (3); 
generate (' 'Declare", s, "Integer", ""); 


} 
} 


lookup () 将 检查 名 为 s 的 条 目 是 否 已 在 符号 表 中 。 除 了 符号 的 名 字 外 ， 不 需要 在 符号 表 中 存储 任何 其 他 
信息 。enter() 无 条 件 地 将 字符 串 s 加 入 符号 表 中 。 因 此 ， 如 果 需 要 ，check | id() 将 通过 把 一 个 变量 加 
入 符号 表 并 生成 一 条 预 留存 储 空间 的 汇编 命令 语句 来 声明 变量 。 在 我 们 的 汇编 语言 中 ，Declare 是 向 汇 
编程 序 声明 名 字 并 定义 其 类 型 的 伪 操 作 码 。 它 针对 简单 的 、 非 结构 化 的 全 局 变量 。 汇 编程 序 决定 该 变量 
需要 多 少 空间 以 及 具体 存放 在 哪里 。 
我 们 需要 一 个 例 程 来 分 配 临时 变量 。 如 前 所 述 ， 临 时 变量 的 分 配 类 似 于 普通 变量 。 惟 一 的 不 同 是 临 
时 变量 名 将 由 编译 器 生成 ， 并 且 对 Micro 程 序 并 无 特别 的 含义 。 它 们 的 名 字 会 是 Temp&1、Temp&2 等 。 
”在 更 实际 的 编译 器 中 ， 临 时 变量 通常 被 看 作 虚 拟 寄 存 器 ， 代 码 生成 器 负责 将 它们 尽 可 能 地 映射 到 实际 的 
寄存 器 。 函 数 get_temp () 负责 分 配 临 时 变量 。 








28 E£2x 





char *get temp(void) 

{ 
/* max temporary allocated so far */ 
static int max temp = 0; 
static char tempname [MAXIDLEN] ; 


max tempt+; 
sprintf (tempname, "Tempé%*d", max temp) ; 
check id (tempname) ; 
return tempname; 
} 


现在 已 经 有 了 为 定义 相应 于 Micro 动 作 符号 的 语义 例 程 所 必需 的 辅助 例 程 。Micro 的 动作 例 程 见 图 2-10。 









void start (void) 


/* Semantic initializations, none needed. */ 


void finish (void) 





/* Generate code to finish program. */ 
generate ("Halt", "n" "n, ""); 
















void assign(expr rec target, expr rec source) 





/* Generate code for assignment. */ 
generate("Store", extract (source), 
target .name, ""); 


} 


op rec process op (void) 





/* Produce operator descriptor. */ 
op rec o; 


if (current token == PLUSOP) 
o.operator = PLUS; 
else 
o.operator - MINUS; 
return o; 


) 










expr rec gen infix(expr rec el, op rec op, 
expr rec e2) 

{ 

expr_rec e rec; 

/* An expr_rec with temp variant set. x/ 

e rec.kind - TEMPEXPR; 


/* 

* Generate code for infix operation. 

* Get result temp and set up semantic record 

* for result. 

*/ 

strcpy (erec.name, get temp()):; 

generate (extract (op), extract (el), 
extract(e2), erec.name) ; 

return erec; 















} 


void read_id(expr_rec in_var) 





/* Generate code for read. */ 
generate ("Read", in var.name, 
" Integer", Ww ") ; 





图 2-10 _ Micro 的 动作 例 程 
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expr_rec process_id (void) 


expr rec t; 


/* 
* Declare ID and build a 
* corresponding semantic record. 
*/ 
check id(token buffer); 
t.kind = IDEXPR; 
strcpy(t.name, token buffer); 
return t; 
} 
expr_rec process literal (void) 
{ 
expr rec t; 


/* 
* Convert literal to a numeric representation 
* and build semantic record. 
*/ 
t.kind = LITERALEXPR; 
(void) sscanf(token_buffer, "Sd", & t.val); 
return t; 


} 


void write expr(expr rec out expr) 
{ 
generate ("Write", extract (out expr), 
"Integer" ， mm) : 


图 2-10 (4%) 
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给 定 这 些 语 义 例 程 ， 现 在 再 来 看 一 下 如 何 修改 一 个 语法 分 析 例 程 以 包含 语义 处 理 。 在 图 2-11 中 给 出 
的 过 程 expression( ) 已 被 修改 用 来 产生 expr_rec 作 为 输出 参数 。 返 回 了 时 ， 这 个 expr_rec 中 包含 由 
expression() 所 识别 的 表达 式 的 语义 信息 。 过 程 体 中 包含 内 部 变量 ， 用 来 存储 调用 其 他 语法 分 析 过 程 43 
所 生成 的 语义 记录 ， 并 用 来 调用 代码 生成 例 程 gen_infix()。( 在 C 语 言 中 使 用 指向 受 影响 的 语义 记 隶 45 


的 指针 来 实现 输出 参数 。) 


void expression (expr_rec *result) 

{ 
expr rec left operand, right operand; 
op rec op; 


primary (å left operand) ; 
while (next_token() == PLUSOP Il 
next_token() == MINUSOP) { 
add op(& op); 
primary (& right operand); 
left operand = gen infix(left operand, op, 
~ right operand); 


} 
tresult = left operand; 


图 2-11 包含 语义 处 理 的 语法 分 析 过 程 


递归 下 降 语 法 分 析 和 翻译 示例 


作为 示例 ， 考 虑 下 列 简 单 Micro 程 序 的 编译 : 
begin A := BB - 314 + A; end SCANEOF 
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以 下 是 在 处 理 该 程序 过 程 中 语法 分 析 器 的 分 析 步 最 记录 ， 连 同 在 每 一 步 剩 余 的 输入 和 处 理 过 程 中 可 能 生 
成 的 代码 。 相 应 的 语法 分 析 器 动作 可 以 是 调用 语法 分 析 例 程 找 出 输入 中 的 一 个 字符 串 来 匹配 文法 中 的 非 
终结 符 ， 或 者 是 调用 match( ) 来 匹配 文法 终结 符 和 一 个 输入 词法 记号 ， 亦 或 是 调用 语义 动作 例 程 。 


Step Parser Action 


(1) Call system_goal () 

(2) Call program () 

(3) Semantic Action: start () 

(4) match (BEGIN) 

(5 Call statement_list () 

(6) Call statement () 

(7) Call ident () 

(8) match (ID) 

(9) Semantic Action: 
process id() 

match (ASSIGNOP) 

Call expression () 

Call primary () 

Call ident () 

match (ID) 

Semantic Action: 
process id() 

Call add op () 

match (MINUSOP) 

Semantic Action: 
process op() 

Call primary () 

match (INTLITERAL) 

Semantic Action: 
proces s literal () 

Semantic Action: 
gen infix() 

Call add op() 


match (PLUSOP) 

Semantic Action: 
process op() 

Call primary () 

Call ident () 

match (ID) 

Semantic Action: 
Process id() 

Semantic Action: 
gen infix() 

Semantic Action: assign () 

match (SEMICOLON) 

match (END) 

match (SCANEOF) 

Semantic Action: finish () 


(10) 
(11) 
(12) 
(13) 
(14) 
(15) 


(16) 
(17) 
(18) 


(19) 
(20) 
(21) 


(22) 


(23) 


(24) 
(25) 


(26) 
(27) 
(28) 
(29) 


(30) 


(31) 
(32) 
(33) 
(34) 
(35) 


为 程序 


Remaining Input 

begin A:-BB-314«A ; end SCANEOF 
begin A:«BB-314+A ; end SCANEOF 
begin A:-BB-3144A ; end SCANEOF 
begin A:«BB-314+A ; end SCANEOF 
A:=BB-314+A ; end SCANEOF 
A:=BB-314+A ; end SCANEOF 
A:=BB-314+A ; end SCANEOF 
A:=BB-314+A ; end SCANEOF 
::BB-3144A ; end SCANEOF 


:BB-314«A ; end SCANEOF 
BB-314-«A ; end SCANEOF 
BB-314«A ; end SCANEOF 
BB-314+A ; end SCANEOF 
BB-314+A ; end SCANEOF 
—314«A ; end SCANEOF 


-314+A ; end SCANEOF 
-314+A ; end SCANEOF 
314+A ; end SCANEOF 


314+A ; end SCANEOF 
314+A ; end SCANEOF 
+A ; end SCANEOF 


+A ; end SCANEOF 


+A ; end SCANEOF 


+A ; end SCANEOF 
A ; end SCANEOF 


A ; end SCANEOF 
A ; end SCANEOF 
A ; end SCANEOF 
; end SCANEOF 


; end SCANEOF | 


; end SCANEOF 
; end SCANEOF 
end SCANEOF 
SCANEOF 


begin A := BB — 314 + A ; end SCANEOF 
生成 的 代码 总 结 如 下 。 很 容易 验证 它 是 正确 的 。 


Declare A,Integer 
Deciare BB,Integer 
Declare Temp&1,Integer 
Sub BB,314,Temp&1 
Declare Temp&2, Integer 
Add Temp&1,A, Temp&2 
Store Temp&2,A 

Halt 


Generated Code 


Declare A,integer 


Declare BB,Integer 


Declare Temp&1,Integer 
Sub BB,314,Temp&1 


Declare Temp&2, integer 
Add Temp&1,A, Temp&2 
Store Temp&2,A 


Halt 
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练习 


9. 


， 使 用 C 语 言 的 switch 语 句 代 替 if 和 else 序 列 重 写 图 2-3 中 的 C 代 码 。 你 喜欢 哪 一 个 版 本 ? 为 什么 ? 
， 为 什么 不 能 使 用 EOF 作 为 枚 举 文字 常量 代替 SCANEOF? | 
， 在 一 个 没有 相应 工具 9 支持 的 语言 (例如 Pascal、Modula-2) 中 ， 用 超前 搜索 (lookahead) 或 者 压 


El (pushback) 方式 实现 单字 符 输入 。 紧 记 需 要 行 结束 标记 和 文件 结束 标记 。 


.实现 保存 词法 记号 字符 串 所 需 的 例 程 buffer_char() 和 clear_buffer()， 以 及 识别 保留 字 的 例 程 


check reserved( )。 实 现时 紧 记 C 语 言 字 符 串 的 特性 。 


， 如 图 2-9 所 示 ， 在 Micro 文 法 中 加 入 非 终结 符 <ident> 将 需要 修改 一 些 递归 下 降 语 法 分 析 例 程 。 重 写 所 


有 为 实现 这 个 改动 而 需 修改 的 例 程 。 

以 图 2-11 中 的 expression( ) 过 程 为 范例 ， 为 所 有 语法 分 析 例 程 添 加 所 需 的 语义 处 理 代码 。 

实际 的 语法 分 析 器 必须 以 某 种 方式 对 语法 分 析 中 遇 到 的 语法 错误 做 出 反应 。Micro 语 法 分 析 器 采用 递 
归 下 降 语法 分 析 ， 需 要 为 文法 中 的 每 个 非 终 结 符 都 编写 一 个 单独 的 语法 分 析 过 程 。 这 种 语法 分 析 技 
术 潜在 地 要 求 将 错误 处 理 集成 在 每 个 语法 分 析 过 程 中 。 从 对 Micro 的 语法 分 析 过 程 的 检查 来 看 ， 显 然 
可 以 有 两 种 方式 发 现 语法 错误 : match() 可 能 无 法 找到 源 程序 中 的 正确 词法 记号 ， 或 者 一 个 语法 分 
析 过 程 在 switch 或 if 语 句 中 检查 next_token( ) 时 可 能 无 法 找到 可 接受 的 记号 。 在 后 一 种 情况 下 ， 
Micro 语 法 分 析 例 程 调用 syntax_error()。match() 和 syntax_error() 必须 被 设计 用 来 执行 某 些 
动作 以 允许 语法 分 析 继 续 进 行 


match( ) 可 以 被 放 在 一 个 布尔 函数 中 以 指示 是 否 在 输入 中 找到 了 所 需 的 词法 记号 .但 这 样 的 改动 会 2 


极 大 地 增加 每 个 调用 它 的 语法 分 析 过 程 的 复杂 性 。 简 单 的 变通 办 法 是 让 match( ) 遇 到 错误 时 假装 它 
看 到 了 正确 的 词法 记号 。 在 这 种 情况 下 ， 必 须 决定 match( ) 是否 应 当 像 成 功 匹 配 时 那样 ， 消 耗 它 在 
词法 记号 流 中 找到 的 不 正确 的 词法 记号 。 这 两 种 方法 有 什么 含义 ? 其 间 又 有 什么 权衡 ? 

如 果 遇 到 第 二 种 语法 错误 ， 则 不 可 能 有 这 样 简单 的 处 理 机 制 ， 因为 任意 词法 记号 集 都 可 以 被 接受 以 
继续 分 析 。 处 理 这 样 的 错误 需要 显 式 地 重新 编写 一 些 语法 分 析 过 程 。 请 提出 一 个 通用 的 方法 修改 像 
statement ( ) 这 样 的 过 程 以 处 理 语法 错误 。 


， 即 使 在 一 个 像 Micro 编 译 器 一 样 简单 的 编译 器 中 ， 我 们 也 可 以 实现 一 种 称 为 常量 合并 (constant 


folding) 的 优化 ， 即 在 编译 时 刻 计算 常量 表达 式 的 值 。 如 果 一 个 表达 式 的 两 个 操作 数 都 是 常量 ， ny 
不 需要 生成 计算 该 表达 式 的 代码 ， 因 为 它 的 值 可 由 编译 器 确定 。 找 出 并 适当 地 修改 与 实现 常量 合并 
相关 的 语义 动作 例 程 。 | 

假定 你 在 编写 一 个 Micro 的 解释 器 而 不 是 编译 器 。 解释 器 将 在 进行 语法 分 析 时 执行 Micro 代 码 而 不 是 
生成 汇编 语言 供 以 后 执行 。 必 须 怎样 修改 语义 动作 例 程 和 语义 记录 以 支持 解释 执行 ? 


10， 对 Micro 的 一 个 有 用 的 扩展 是 包含 一 种 新 型 的 表达 式 ， 条 件 表 达 式 (conditional expression), ， 其 语 


法 为 :(E,1Ez|E9。 当 计算 该 表达 式 时 ， 如 果 E1 非 零 则 返回 Ez 作 为 表达 式 的 值 ， 否则 返回 Es 作 为 表 
达 式 的 值 。 

(a) 写 出 适当 的 产生 式 ， 以 便 为 Micro 添 加 条 件 表达 式 ， Job baht ect EREDE 
调用 。 

(b) 假定 有 一 条 新 的 汇编 语言 指令 Skip A, RARE BARES (AMSEC TRS. SHK 
现 条 件 表达 式 所 需 的 动作 例 程 。 

(c) 别 忘 了 同时 扩充 词法 分 析 器 ! 





折 “ 如 C 语 言 中 的 ungetc( ) 函数 。 一 一 译 者 注 
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第 3 章 ”词法 分 析 一 一 理论 和 实践 


3.1 概述 


词法 扫描 器 (scanner) 的 主要 功能 是 将 输入 字符 分 组 为 词法 记号 。 词 法 扫描 器 有 时 也 称 为 词法 分 
析 器 (lexical analyzer)， 这 两 个 术语 可 以 互 换 使 用 ? 。 第 2 章 中 的 Micro 词 法 分 析 器 十 分 简单 ， 很 容易 由 
任何 称职 的 程序 员 编 码 实 现 。 现 在 ， 我 们 深入 研究 的 问题 是 为 更 全 面 的 程序 设计 语言 创建 词法 分 析 器 。 

本 章 将 介绍 用 来 指定 词法 记号 精确 结构 的 形式 表示 (formal notation )。 和 在 看 ， 这 样 做 似乎 没有 必要 ， 
因为 大 多 数 程序 设计 语言 中 的 词法 记号 结构 都 很 简单 。 这 里 的 问题 是 词法 记号 可 能 比 我 们 所 期 望 的 更 复 
杂 。 例 如 ， 大 家 都 熟悉 Pascal 中 由 引号 引用 的 简单 字符 串 。 字 符 串 中 可 包含 除 引 号 外 的 任意 字符 序列 
(其 中 车 出 现 引 号 ， 则 必须 用 两 个 引号 表示 )。 但 这 个 简单 定义 真 的 正确 么 ?换行 符 可 以 出 现在 字符 串 中 
么 ?也许 不 能 ， 因 为 跨行 的 字符 串 难 以 阅读 。 如 果 人 允许 包 含 换行 符 ， 结 尾 缺 少 引 号 的 “失控 字符 串 ” 将 
更 加 难以 检测 。C 语 言 中 包含 换行 符 ， 并 允许 被 转 义 的 换行 符 出 现在 字符 串 中 ， 而 Pascal 语 言 禁止 换行 符 
出 现在 字符 串 中 。Ada 则 进一步 禁止 字符 串 中 出 现任 何不 可 打印 字符 〈 正 因为 它们 通常 不 可 读 )。 类 似 地 ， 
”允许 出 现 ( 长 度 为 零 的 ) 空 字符 串 吗 ? Pascal 不 允许 ， 因 为 在 Pascal 中 字符 串 是 一 个 压缩 型 字符 数组 
(packed array of characters), ， 而 零 长 度 的 数组 是 不 允许 出 现 的 。 相 反 ，Ada 和 C 则 人 允许 空 字符 串 。 

为 保证 实施 词法 规则 ， 词 法 记号 的 严格 定义 显然 是 必需 的 。 形 式 定义 也 使 得 语言 设计 者 能 够 抽风 设 
计 缺 路 。 例 如 ， 实 际 上 所 有 语言 都 允许 定点 十 进 制 数 ， 像 0.1 或 10.01。 但 允许 .1 或 10. 吗 ? 在 FORIRAN 
和 C 中 允许， 但 有 趣 的 是 ， 在 Pascal 和 Ada 中 不 允许 。 词 法 分 析 器 通常 试图 使 一 个 词法 记号 尽 可 能 长 ， 例 
如 ，ABC 被 扫描 分 析 为 一 个 标识 符 而 不 是 三 个 标识 符 。 现 在 考虑 字符 序列 1..10。 在 Pascal 和 Ada 中 希望 
它 被 解释 为 区 间 说 明 符 (1 到 10)。 如 果 在 词法 定义 中 不 小 心 ， 会 把 1..10 扫 描 分 析 为 两 个 实数 文字 常量 ， 
1. 和 .10， 并 将 导致 直接 的 〈 而 且 是 意 想 不 到 的 ) 语法 错误 。( 在 CEG 中 反映 出 两 个 实数 不 能 相 邻 这 个 事 
实 ， 是 由 语法 分 析 器 而 不 是 词法 分 析 器 要 求 的 。) 

给 定 了 词法 记号 和 程序 结构 的 形式 规范 ， 就 有 可 能 检查 一 个 语言 是 否 有 设计 缺陷 。 例 如 ， 考 虑 所 有 
可 以 相 邻 的 词法 记号 对 ， 确 定 这 两 个 词法 记号 是 否 可 能 被 错误 地 扫描 。 如 果 是 ， 则 需要 一 个 分 隐 符 (如 
针对 相 邻 的 标识 符 和 保留 字 的 情形 )， 否 则 词法 或 程序 语法 就 需要 重新 设计 。 关 键 是 语言 设计 比 我 们 所 
预期 的 更 为 辐 手 ， 而 形式 规范 允许 在 设计 完成 前 发 现 缺 陷 。 | 


所 有 词法 分 析 器 ， 不 论 它 识 别 什么 样 的 词法 记号 ， 都 执行 相同 的 功能 。 因 此 ， 从 零 开 始 编写 词法 分 


析 器 意味 着 重新 实现 所 有 词法 分 析 器 的 公共 组 件 ， 是 大 量 的 重复 劳动 。 词 法 分 析 器 生成 器 (scanner 
generator ) 的 目标 是 通过 指定 词法 分 析 器 识别 哪些 词法 记号 来 减少 构造 词法 分 析 器 的 努力 。 利 用 形式 表 
示 ， 告 诉 词法 分 析 器 生成 器 我 们 想 识别 哪些 词法 记号 ;产生 符合 我 们 规范 的 词法 分 析 器 则 是 生成 器 的 责 
任 。 一 些 生成 器 不 产生 完整 的 词法 分 析 器 ， 而 是 产生 可 与 标准 驱动 程序 一 起 使 用 的 表格 。 将 生成 的 表格 
和 标准 驱动 程序 结合 起 来 可 以 产生 想 要 的 定制 词 半分 析 器 。 

使 用 词法 分 析 器 生成 器 编程 是 一 种 非 过 程式 程序 设计 (nonprocedural programming)。 也 就 是 说 ， 它 
不 同 于 普通 的 称 为 过 程式 的 程序 设计 (procedural programming ), 我 们 不 告诉 词法 分 析 器 生成 器 怎样 扫描 


O “在 本 书 中 ， 统 一 将 “scanner” 译 为 “词法 分 析 器 "。 一 一 译 者 注 
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而 是 简单 地 告诉 它 我 们 想 要 扫描 什么 。 在 各 种 方法 中 ， 这 是 一 种 更 自然 的 高 级 方法 。 近 来 ， 有 相当 一 部 分 
计算 机 科学 研究 都 指向 非 过 程式 程序 设计 风格 。( 数 据 库 查询 语言 和 Prolog (一 种 “多 辑 ” 程 序 设计 语言 ) 
都 是 非 过 程式 的 。 ) 非 过 程式 程序 设计 最 成 功 地 用 于 有 限 领域 ,例如 词法 分 析 ， 其 中 必须 自动 做 出 的 实现 
决定 的 范围 是 有 限 的 。 尽 管 如 此 ， 计 算 机 科学 家 的 长 期 ( 且 尚 未 实现 的 ) 目标 是 从 源 语言 特性 和 目标 计算 
机 的 规范 出 发 产生 完整 的 编译 颖 。 

在 后 面 各 节 中 ， 首 先 介 绍 正 则 表达 式 (regular expression) 的 表示 ， 它 非常 适合 词法 记号 的 形式 化 
定义 。 其 次 ， 研 究 正则 表达 式 和 有 限 自 动机 (finite automata) 之 间 的 对 应 关系 。 有 限 自动 机 特别 有 用 ， 
因为 它们 能 够 被 “执行 ”以 读 入 字符 并 将 其 分 组 为 词法 记号 。 本 章 还 将 详细 讨论 两 个 词法 分 析 器 生成 各 ， 
ScanGen 和 Lex。 它 们 将 (以 正则 表达 式 形式 给 出 的 ) 词法 记号 定义 作为 输入 。 ScanGen 产 生 可 由 小 型 词 
法 分 析 器 驱动 程序 使 用 的 表格 。Lex 则 产生 完整 的 词法 分 析 子 程序 ， 以 备 编译 和 使 用 。 接 下 来 ， 要 讨论 
的 话题 是 在 创建 词法 分 析 器 以 及 将 其 和 编译 器 的 其 他 部 分 集成 时 所 要 考虑 的 一 些 实 际 问题 。 这 些 问 题 包 
i: 预见 可 能 使 词法 分 析 复 杂 化 的 词法 记号 和 上 下 文 ， 以 及 从 词 革 错误 中 恢复 。 本 章 的 最 后 一 市 解释 词 
冰 分 析 器 生成 器 如 何 将 正则 表达 式 翻 译 成 有 限 自动 机 。 读 者 车 希望 简单 地 将 词法 分 析 器 生成 器 视 为 一 个 
黑箱 ， 则 可 以 跳 过 该 节 。 尽 管 如 此 ， 这 些 材 料 可 用 来 补充 前 面 介 绍 的 正则 表达 式 和 有 限 自 动机 的 概念 。 
该 节 还 说 明 如 何 构 造 、 合 并 、 简 化 甚至 优化 有 限 自 动机 。 


3.2 正则 表达 式 


正则 表达 式 是 描述 某 些 简 单 (尽管 可 能 是 无 限 的 ) 字符 串 集合 的 便利 手段 。 正则 表达 式 有 着 实际 的 
重要 性 ， 因 为 它们 可 以 用 来 描述 程序 设计 语言 中 所 使 用 的 词法 记号 的 结构 。 特别 是 ， 正 则 表达 式 可 用 来 
为 词法 分 析 器 生成 器 编制 程序 。 

由 正则 表达 式 (regular expression ) 所 定义 的 字符 审 集 称 为 正则 集 (regular set)。 我 们 从 有 限 字 符 
集 或 词汇 表 (由 VY 表示 ) 开始 。 词汇 表 通 常 是 用 来 形成 词法 记号 的 字符 集 。 允 许 出 现 空 字符 囊 (由 和 表示; 
读 作 “lambda”)。 字 符 串 由 V 中 的 字符 通过 连接 操作 (catenation) 构造 (例如 ，:=, begin, 123)。 空 字 
ee Sy ea RSE, 4ems. Bl, SA=AS=S. 

可 按 以 下 方式 将 连接 操作 扩展 到 字符 串 集 上 : 令 P 和 Q 是 字符 串 集 。 则 当 且 仅 当 Ss 可 被 拆 分 成 两 部 分 : 


.8 = si ss， 其 中 SIEP 且 szEQ 时 ，sE(P Q). 小 的 有 限 集 可 通过 列 出 它们 的 元 素 方便 地 表示 。 这 些 元 素 可 


以 是 单个 字符 或 字符 串 。 cnn 选择 操作 符 “4” 用 来 分 隔 不 同 的 选项 。 

字符 “(”、“)”、“”、“*”、“+” 和 “I” 是 元 字符 (meta-character)， 作为 标点 符号 和 正则 表达 式 操 
作 符 使 用 。 号 中 的 元 字符 于 race. 以 避免 二 义 性 。( 任 何 字 符 或 字符 串 都 可 以 由 引号 引用 ， 但 
通常 避免 使 用 不 必要 的 引号 ， 以 增强 可 读 性 。) 例如 : 

Delim = (C1! ES Eb 1+ E209 1/1 = 1 $$$) 

可 将 选择 操作 扩展 到 字符 串 集 上 。 令 P 和 Q 是 字符 串 集 。 则 当 且 仅 当 sEP 或 SEQ 时 ，sE(P|Q)。 大 
的 (或 无 限 的 ) 集合 可 通过 有 限 字符 和 字符 串 集 的 连接 操作 和 选择 操作 方便 地 表示 。 此 外 ， 还 允许 使 用 
第 三 种 操作 ，Kieene 闭 色 (Kleene closure). 操作 符 * 用 来 表示 Kleene 闭 包 操作 符 。 令 P 为 一 个 字符 串 集 。 
当 且 仅 当 字 符 串 Ss 可 被 拆 分 为 零 个 或 多 个 部 分 : S=S1 S2 S3 … Sn, 使 得 每 个 SiEP 时 ，sEP*。P"' 中 的 字符 
串 是 来 自 P 的 (可 能 重复 的 ) 零 个 或 多 个 选项 的 连接 。( 明确 允许 n = 0， 因此 入 总 在 P' 中 ,) 

正则 表达 式 定 义 如 下 。 每 个 正则 表达 式 由 一 个 字符 捉 集 (正则 集 ) 表示 。 

。 纪 是 正则 表达 式 ， 它 表示 空 集 (该 集合 中 不 包含 字符 串 )。 

。 入 是 正则 表达 式 ， 它 仅 包含 空 字符 串 。 注 意 : 该 集合 与 空 集 不 同 ， 因为 它 包含 一 个 元 素 。 

。 字符 串 s 是 表示 仅 包含 s 的 正则 表达 式 。 如 果 Ss 包 含 元 字符 ， 可 以 将 s 放 在 引号 中 以 避免 二 义 性 。 








。 如 果 A 和 B 是 正则 表达 式 ， 则 A1B、A B 和 A' 也 是 正则 表达 式 ， 分 别 表示 相应 正则 集 的 选择 、 连接 

和 Kleene 闭 包 。 
任意 有 限 字 符 串 集 可 由 形 如 (S; |sz|… 1s) 的 正则 表达 式 表示 

通常 使 用 下 列 操作 作为 简便 记 靶 。 它 们 不 是 必需 的 ， 因 为 (尽管 稍 有 点 笨拙 ) 也 可 以 通过 三 种 标准 

正则 操作 符 CE. Ei. Kleene 1) 达到 这 样 的 效果 : 

*。P: 表 示 由 P 中 的 一 个 或 多 个 字符 串 连接 而 成 的 所 有 字符 串 : P= (PEP = P P, 

c 如 果 A 是 一 个 字符 集 ，Not(A) 表 示 (V - A); 即 ， 所 有 在 V 但 不 在 A 中 的 字符 。 由 于 Not(A) 是 有 限 的 ， 
因此 它 是 平凡 正则 的 。 可 以 将 Not 扩 展 到 字符 串 而 不 仅 限 于 V。 即 ， 如 果 S 是 字符 串 集 ， 可 以 定义 
Not(S)A(V' - S)。 尽 管 该 集合 可 能 是 无 限 的 ， 但 它 仍 然 是 正则 的 〈( 见 练习 20)。 

常数 ， 和 集合 A* 表 示 由 A 中 的 (不 必 是 不 同 的 ) 字符 串 连接 k 次 所 形成 的 所 有 字符 串 ， 即 ， 

= (A A A -.…) (k 个 A)。 

避 在 讽 明 如 何 用 正则 表达 指定 词法 记 生 人 

D=(01---{9) L=(Al--- 12) 
则 

。 以 “--” 开 始 ， 以 Eal (TARI) 结束 的 注释 可 定义 为 : 

Comment = -- Not(Eol)' Eo! 

。 定 点 十 进 制 文字 常量 可 定义 为 : 

. Lit = D' . D* 

。 标 识 符 由 字母 、 数 字 和 下 划 线 组 成 ， 以 字母 开始 ， 以 字母 或 下 划 线 结尾 ， 且 不 包含 连续 的 下 划 线 。 

标识 符 可 定义 如 下 : 

ID- L(LIDJ (LI 

ERR “AE bRIOBRGEBUDETE,. THEERA PORE TA CX: 

Comment = ## ((# | A) Not(#) y 3H 

所 有 有 限 集 和 许多 无 限 集 ， 例 如 刚刚 列 出 的 那些 无 限 集 ， 都 是 正则 的 。 但 并 非 所 有 无 限 集 都 是 正 
则 的 。 例 如 ， 考 虑 { [ 11i> p 该 集合 是 形 如 [fff{f … 了 的 配对 方 括号 集 。 这 是 一 个 著名 的 非 正则 集 。 
问题 是 任何 正则 集 要 么 不 包含 所 有 的 配对 嵌 套 ， 要 么 包含 多 余 的 不 必要 的 字符 串 。(〈 练 习 16 对 此 进行 
iE AA. ) 


很 容易 写 出 一 个 CFG， 它 精确 定义 了 配对 方 括 号 。 所 有 正则 集 都 可 由 CFG 定 义 。 因 此 ， 方 括号 的 例 


子 表明 CFG 是 比 正则 表达 式 更 为 强大 的 描述 机 制 。 正 则 表达 式 完全 足够 用 来 描述 词法 记号 级 语法 。 


3.3 有 限 自动 机 和 词法 分 析 兹 


有 限 自动 机 (Finite Automaton, FA) 用 来 识别 由 正则 表达 式 定义 的 词法 记号 。 FA 是 一 个 简单 的 理 
想 化 的 计算 机 ， 可 用 来 识别 属于 正则 集 的 字符 串 。 它 包含 : 

* 一 个 有 限 状 态 集 。 

。 从 一 个 状态 到 另 一 个 状态 的 转换 〈 或 移动 ) 集 ， 标 记 V 中 的 字符 。 

e -一 个 特殊 的 开始 状态 。 

。 一 组 终止 或 接受 状态 。 
可 以 用 转 挽 图 来 图 形 化 地 表示 有 限 自动 机 : 
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O 是 一 个 终止 状态 


在 这 些 图 中 ， 从 开始 状态 开始 进行 分 析 。 如 果 下 一 个 输入 字符 匹配 从 当前 状态 出 发 的 转换 标签 ， 则 转移 
到 该 转换 所 指向 的 状态 。 如 果 没 有 可 能 的 转换 ， 则 停止 。 如 果 在 一 个 终止 状态 结束 ， 则 所 读 人 的 字符 序 
列 是 一 个 有 效 的 词法 记号 ; 否则 就 不 是 一 个 有 效 的 记号 。 如 图 所 示 ， 有 效 的 词法 记号 是 由 正则 表达 式 (a 
b (c)*)* 所 描述 的 字符 串 。 

-个 转换 可 标 以 多 个 字符 (例如 ，Not(c)) 作为 简写 。 如 果 当 前 输入 字符 匹配 标记 转换 的 任何 字符 ， 
就 可 以 发 生 转 换 。 

如 果 一 个 FA (对 于 给 定 状态 和 字符 ) 总 有 惟一 转换 ， 则 该 FA 是 确定 的 ( 即 , 一 个 确定 的 FA 或 DFA ). 
确定 的 有 限 状 态 机 通常 用 来 驱动 词法 分 析 器 。 在 计算 机 中 通常 用 转换 表 (transition .table) 来 表示 PFA。 


一 个 转换 表 T 由 DFA 状 态 和 词汇 表 符 号 索引 。 二 如 果 在 状态 s， 读 和 人 字符 





c， 则 TI[s]j[c] 将 是 下 一 个 要 访问 的 状态 ,或 者 是 一 个 错误 标 ， 指 示 c 不 能 作为 当前 词法 记号 的 一 部 分 。 
例如 ， 正 则 表达 式 

. —- Not(Eol)' Eol 
定义 一 个 Ada 语 言 的 注释 ， 可 被 转换 为 


Not(Eol) 


相应 的 转换 表 为 





在 该 表 中 ， 错 误 项 为 空 。 完 整 的 转换 表 中 针对 符 将 包含 相应 的 一 列 。 为 节省 空间 ， 常 常 使 用 茶 些 
形式 的 表 压 缩 ; 这 将 在 3.4.1 节 深入 讨论 。 
任意 正则 表达 式 都 可 被 转换 为 一 个 DFA， 这 个 DFA 接 受 由 该 正则 表达 式 表示 的 字符 串 集 (作为 有 效 


的 词法 记号 )。 该 转换 可 由 以 下 方式 完成 : 


个 


8 
n 
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* 由 词法 分 析 器 生成 器 自动 完成 。 

。 由 程序 员 手 工 完成 。 

DFA 可 被 实现 为 由 -个 驱动 程序 “解释 ”的 转换 表 ， 或 “直接 ”实现 为 程序 的 控制 馆 辑 (每 条 语句 
对 应 一 个 DFA 状 态 )。 例 如 ， 假 定 current_char 为 当前 输入 字符 , 使 用 上 面 介绍 的 识别 Ada 注 释 的 DFA， 
这 两 种 方法 可 产生 图 3-1 和 图 3-2 中 列 出 的 程序 。 


/* 
* Note: current char is already set to 
* the current input character. 

x/ 
state x initial state; 
while (TRUE) ( 
next state = T(state][current char]; 
if (nextstate == ERROR) 
break: 
state = next state; 
if (current char == EOF) 
break: 
current char = getchar (); 


) 
if (is final state(state)) 
/* Return or process valid token. */ 


else 
lexical error(current char); 





图 3-1 RPE RE Be HY III oy BT Be 3B) at 


if (current char == ‘-‘) { 
current char = getchar(); 
if (current char == '-') { 
do 
current char = getchar (); 
while (current char != '\n'); 
) else { | 
ungotc(current char, stdin): 
lexical error(current char): 
) 
) 


else 
lexical error(current char) ; 


/* Return or process valid token. */ 





图 3-2 含 固定 词法 记号 定义 的 词法 分 析 器 
第 一 种 形式 通常 和 词法 分 析 器 生成 器 一 起 使 用 ， 它 是 与 语言 无 关 的 。 如 果 已 正确 设置 了 转换 表 ( 存 
放 在 T 中 )， 则 该 形式 是 一 个 能 够 扫描 任何 词法 记号 的 简单 里 动 禹 。 后 一 种 形式 通常 手工 产生 。 在 这 里 ， 
要 扫描 的 词法 记号 被 “ 硬 编码 ”到 程序 中 。 . 


下 面 是 正则 表达 式 和 它们 所 对 应 的 DFA 的 另外 两 个 例子 : 
。FORTRAN 式 的 实数 文字 常量 (在 小 数 点 一 边 或 两 边 都 需要 数字 ， 或 仅 是 一 个 数字 圳 ) 下 可 定义 为 


RealLit =(D* (A 1.)) | (D . D*) 
它 对 应 DFA 
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* 由 字母 、 数 字 和 下 划 线 组 成 的 标识 符 ， 其 中 不 含 相 邻 下 划 线 或 后 置 下 划 线 ， 可 定义 为 
ID - L(LID) ((LID* )' 
相应 的 DFA 为 


LID 


LID 
可 为 FA 添加 输出 机 制 ， 使 FA 成 为 转换 器 (transducer)。 在 读 入 字符 时 ， 它 们 可 被 转换 并 连接 到 输 
出 字符 串 中 。 对 我 们 的 目的 来 说 ， 应 当 将 转换 操作 限制 为 保存 或 删除 输出 字符 。 一 个 词法 记号 被 识别 后 ， 
被 转换 过 的 输入 可 被 传递 给 其 他 编译 阶段 进行 进一步 处 理 。 使 用 这 个 词法 记号 : 


一 一 > 表示 把 a 保存 到 词法 记号 缓存 中 









— Ua) > 表示 不 保存 a (将 它 抛弃 ) 

例如 ， 对 于 注释 ， 可 以 写 

C) T(-) C T(-) © T(Eol C 

- 
T(Not(Eol)) 

一 个 更 有 趣 的 例子 是 根据 正则 表达 式 ， 由 引号 中 的 字符 串 给 出 的 

C(No()I) ) — | 
相应 的 转换 器 可 以 是 





输入 """Hi"”" 会 产生 输出 "Hi"。 


3.4 使 用 词法 分 析 器 生成 器 


在 本 第 中 ,将 说 明 两 个 流行 的 词法 分 析 器 生成 器 ScanGen 和 Lex 的 使 用 。ScanGen 和 Lex 的 完整 描述 
可 在 附录 B 和 Lesk and Schmidt (1975) 中 找到 。 这 里 ， 我 们 的 目的 是 说 明 如 何 将 正则 表达 式 及 其 相关 信 
息 呈 现 给 生成 器 。 学 习 使 用 词法 分 析 器 生成 器 的 一 个 好 办 法 是 : 从 这 里 介绍 的 简单 例子 开始 并 逐步 将 它 
们 推广 以 解决 手头 面临 的 问题 。 对 于 没有 经 验 的 读者 ， 词 法 分 析 器 规范 会 显得 降 涩 难 懂 。 最 好 紧 记 问题 
的 关键 总 是 作为 正则 表达 式 的 词法 记号 规范 ， 其 余 的 内 容 则 仅 是 为 了 提高 效率 并 处 理 各 种 细 市 。 


3.4.1 ScanGen 
ScanGen 是 一 个 易于 移植 的 、 高 度 独 立 于 语言 和 机 器 的 词法 分 析 器 生成 器 。 ScanGen 产 生 由 驱动 程 
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序 使 用 的 表格 ， 继 而 创建 一 个 完整 的 词法 分 析 器 。ScanGen 驱 动 程序 的 一 般 结 构 将 在 下 一 节 讨论 。 
”ScanGen 被 用 于 世界 上 许多 大 学 和 研究 实验 室 中 。. mE | 

我 们 将 学 习 在 ScanGen 中 如 何 通 过 检查 图 3-3 中 所 示 的 定义 来 定义 词法 记号 。 该 定义 扩 展 了 Micro 的 
词法 记号 集 ， 其 中 包含 实数 和 字符 串 文 字 常 量 以 及 一 个 用 来 处 理 失控 字符 串 的 特殊 的 “错误 词法 记号 ”。 















Options 
List, tables, optimize 









Classe 
E x 'E', 'e'; 
OtherLetter = AD ?人 AP VP d','f'..'x'; 
Digit = !0'..'9'; 
Blank mf’; 
Dot = 
Plus = 
3 


f ata 
= F 















Definition 
Token EmptySpace (0) = (Blank, Linefeed, Tab)+; 
Token Comment {0} = 
Minus . Minus . (Not(Linefeed))* . Linefeed; 
Letter = E, OtherLetter; 
Token Identifier (1) = Letter. (Letter,Digit,Underscore)* 






‘Write’ {7}; 
Token IntLit (2,1) * Digit*; 
Token RealLit (2,2) = IntLit .Dot .IntLit. 
(Epsilon, E. (Epsilon, Plus, Minus) .IntLit); 
Token StrLit (2,3) = Quote(Toss). 
(Not (Quote, Linefeed) , Quote {Toss} .Quote) * . Quote(Toss): 
Token RunOnStringlit (3) = Quote(Toss). 
(Not(Quote, Linefeed), Quote([Toss).Quote)* 
. Linefeed(Toss): 
Token LparenToken (8) = Lparen; ' l 
Token RparenToken {9} = Rparen; l . 
Token SemicolonToken {10} = Semicolon; 
Token CommaToken (11) = Comma; 
Token AssignOp {12} = Colon . Equal: 
Token PlusOp (13) = Plus; 
Token MinusOp {14} = Minus; 


图 3-3 扩展 Micro 的 ScanGen 定 义 


ScanGen 的 输入 分 为 三 节 ， 每 节 由 一 个 保留 字 打 头 。 第 一 节 指 定 由 ScanGen 使 用 的 选项 。 在 我 们 的 
示例 中 ， 需 要 列 出 输入 列表 ， 产 生 输出 表格 ， 并 包含 一 个 状态 优化 阶段 。 

第 二 节 定 义 字符 类 (character class). 在 对 有 限 自动 机 的 讨论 中 ， 很 定 状态 转换 是 由 有 限 词 汇 表 中 
的 字符 进行 标记 。 在 实践 中 ， 该 词汇 表 是 某 个 计算 机 字符 集 ， 可 能 是 ASCH 或 EBCDIC。 由 于 用 于 定义 

”FA 的 转换 表 的 大 小 是 状态 数 和 字符 数 的 乘积 ， 因 此 字符 集 大 小 是 一 个 重要 因素 。 | 
很 容易 看 出 自然 落 入 字符 类 中 的 字符 ， 其 中 一 个 类 中 的 所 有 字符 在 正则 表达 式 或 FA 中 都 被 同等 对 
待 。 在 字符 类 一 节 中 根据 字符 序列 或 字符 范围 定义 类 名 。 对 应 单个 字符 的 类 当然 是 被 允许 的 ， 而 与 字符 
签 价 的 十 进 制 数 用 于 不 可 打印 字符 。 在 任何 字符 类 定义 中 都 未 提 及 的 字符 将 被 忽略 。 如 果 愿 意 ， 可 定义 
一 个 “非法 ”类 ， 强 迫 产 生词 法 分 析 器 错误 (和 错误 信息 )。 所 有 正则 表达 式 和 有 限 自动 机 都 使 用 字符 
类 来 定义 。ScanGen 产 生 一 个 向 量 ， 将 字符 映射 到 字符 类 。 使 用 字符 类 使 得 正则 表达 式 更 易于 阅读 ， 并 
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( 极 大 地 ) 减 小 了 转换 表 的 大 小 。 

对 于 一 个 典型 的 程序 设计 语言 ，ScanGen 产 生 约 50 个 状态 和 30 个 字符 类 。 假 定 每 个 条 目 占 两 个 字 节 
(一 个 用 于 action 标 志 ， 一 个 用 于 next_state 值 )， 这 种 表示 方法 意味 着 使 用 普通 数组 结构 存放 的 一 个 
转换 表 的 大 小 约 为 3000 字 节 。 因 为 对 每 个 输入 字符 都 要 查询 转换 表 ， 所 以 对 表 项 的 快速 访问 非常 重要 。 
因此 ， 如 果 可 以 满足 普通 二 维 数组 的 空间 需求 ， 则 该 格式 将 是 词法 分 析 器 转换 表 的 最 佳 表 示 方 法 。 

尽管 如 此 ， 压 缩 转换 表 仍 然 可 能 是 必要 的 。 在 第 17 章 将 讨论 许多 表 压 缩 技 术 。 这 些 技术 可 用 于 缩小 
转换 表 的 尺寸 ， 但 需要 谨慎 行事 。 特 别 地 ， 访 问 压缩 表 的 额外 开销 可 能 超过 空间 节省 所 带 来 的 益处 。 在 
采用 任何 压缩 方案 前 先 估 算 球 度 和 空间 开销 是 一 种 明智 的 做 法 。 

ScanGen 的 最 后 一 节 使 用 正则 表达 式 定义 词法 记号 ， 其 中 使 用 中 级 “.”( 连 接 操作 ) 和 “， (选择 
操作 )、 后 级 “*”(Kleene 闭 包 ) 和 “+”( 正 闭 包 ) 以 及 一 元 Not 。 连 接 操 作 作 为 显 式 操 作用 来 增强 可 读 
性 并 简化 正则 表达 式 的 翻译 。Epsilon 表 示 匹 配 入 的 正则 表达 式 。( 在 一 些 教材 中 以 s 表 示 空 串 ms 
在 本 书 中 使 用 入 。) 不 直接 定义 词法 记号 的 正则 表达 式 (例如 Letter ) 可 以 用 来 在 定义 其 他 正则 表达 式 
时 使 用 。 

词法 记号 定义 的 形式 为 

Token name{major,minor} = regular expression ; 
语法 分 析 器 认为 一 个 词法 记号 的 所 有 实例 都 是 等 价 的 ， 但 有 时 同样 的 词法 记号 的 子 类 由 不 同 的 正则 表达 
式 识别 。 在 图 3-3 中 ， 使 用 三 个 不 同 的 正则 表达 式 来 识别 整数 、 实 数 和 字符 串 文字 常量 。 词 法 记号 子 类 
可 以 有 不 同 的 语义 解释 。 例 如 ， 不 则 的 文字 常量 类 需要 以 不 同 的 方式 转换 到 内 部 形式 。 因 此 ， 词 法 记 史 
描述 的 一 个 有 用 特性 是 同时 以 主 词法 记号 代码 (major token code) 和 次 词法 记号 代码 (minor token 
code) 标记 词法 记号 的 能 力 。 主 词法 记号 代码 识别 语法 分 析 器 所 需 的 词法 记号 ， 次 词法 记号 代码 则 可 由 
语义 处 理 例 程 使 用 。 在 词法 记号 定义 中 ， 主 代码 和 次 代码 都 是 整 型 值 。 次 代码 是 可 选 的 〈 它 默认 为 零 )。 

相同 的 字符 序列 可 以 被 多 个 正则 表达 式 匹配 。 在 这 种 情况 下 , 在 规范 中 较 早 列 出 的 正则 表达 式 优先 。 
它 的 主 、 次 代码 不 变 。 

一 些 词法 记号 可 能 是 “噪音 记号 ”(noise token) (ER), CM (一 旦 被 识别 就 ) 必须 被 删除 而 不 
是 返回 给 语法 分 析 器 。 根 据 ScanGen 中 的 约定 ， 为 零 的 主 代码 指示 相应 的 词法 记号 将 会 被 删除 而 不 是 被 伟 
给 语法 分 析 器 。 定 义 一 个 空白 词法 记号 (由 空白 符 、 制 表 符 和 换行 符 组 成 ) 以 消耗 感 兴趣 的 词法 记号 之 
间 的 空白 通常 是 有 用 的 。 在 图 3-3 中 ， 词 法 记号 EmptySpace 即 用 于 此 目的 。 当 然 ， 它 是 标记 为 需要 被 删 
BRAT. 

词法 记号 定义 可 以 有 一 个 异常 子 身 (exception clause， 以 Except 开 始 ) 命名 一 列 异常 。 每 个 异常 
(由 含 主 、 次 代码 的 文字 常量 定义 ) 必须 匹配 相关 的 正则 表达 式 。ScanGen 产 生 经 过 排序 的 一 列 异常 ( 适 
于 二 分 查找 ) 以 及 一 个 标志 指示 该 词法 记号 定义 含有 异常 。 当 找到 匹配 该 表达 式 的 词法 记号 时 ， 词 法 分 
析 器 驱动 程序 必须 搜索 异常 列表 以 确定 识别 了 什么 词法 记号 。 | 

异常 列表 适 于 许多 不 同 的 词法 记号 有 相似 词法 结构 的 情况 。 该 问题 的 一 个 例子 是 保留 字 通 常 和 标识 
符 在 词法 上 重 倒 。 将 保留 字 作 为 标识 符 的 异常 来 处 理 简化 了 规范 ， 同 时 也 能 减 小 词法 分 析 器 所 需 的 FA 的 
尺寸 。 该 问题 会 在 3.5 节 中 进一步 讨论 。 | 

在 正则 表达 式 中 ， 字 符 类 的 名 字 或 Not 表 达 式 可 以 由 {Toss} 作 为 后 绿 。 当 在 某 个 正则 表达 式 中 匹配 
以 {Toss} 标 记 的 字符 类 (或 其 互补 类 ) 的 名 字 时 ， 匹 配 的 字符 被 丢弃 而 不 是 被 保存 。 BUB EA (Toss) 
标记 的 字符 类 的 名 字 和 Not 表 达 式 被 隐 含 地 假定 保存 它们 所 匹配 的 任意 字符 。 

ScanGen 通 常 针对 ASCII 或 EBCDIC 字 符 集 进行 配置 。 然 而 ， 也 可 以 通过 增加 字符 集 尺 寸 参 数 来 编译 
它 使 之 可 接受 伪 字 符 。 这 样 就 能 以 简洁 的 方式 处 理 文件 结束 条 件 。 特 别 地 ， 当 文件 结束 时 ， 读 字符 例 程 
可 以 返回 一 个 由 Eof 词 法 记号 所 定义 的 Eof 擅 字符 。( 在 第 2 章 中 ，Eof 词 法 记号 由 SCRANEOF 表 示 。C 语 言 
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标 崔 IO 库 称 之 为 EOF ) 

除 此 之 外 ， 还 可 以 修改 词法 分 析 器 驱动 程序 ， 以 便 在 查阅 词法 分 析 器 转换 表 前 测试 文件 结尾 。 如 果 
在 调用 词法 分 析 器 时 文件 结尾 标志 为 真 ， 则 立即 返回 Eof 记 号 。 如 果 在 进行 词法 分 析 的 过 程 中 文件 结束 
标志 为 真 ， 则 当前 词法 记号 完成 并 返回 。 下 次 调用 词法 分 析 器 时 将 返回 Eof 记 号 。 
ScanGen 驱 动 程序 

在 本 节 简 要 介绍 驱动 程序 例 程 ， 它 们 可 以 和 ScanGen 产 生 的 表格 一 起 使 用 以 实现 词法 分 析 器 。 

通常 ， 在 进行 词法 分 析 时 FA 必须 超前 搜索 。 也 就 是 说 ， 它 必须 检查 一 个 有 可 能 不 属于 当前 词法 记 
号 一 部 分 的 字符 ， 以 证 实 已 经 看 到 了 一 个 完整 的 词法 记号 。 例 如 ， 在 扫描 一 个 标识 符 时 ， 必 须 保持 读 入 ， 
直到 看 到 一 个 不 属于 当前 标识 符 的 字符 〈 比 如 一 个 空白 符 或 “;”)。 我 们 必须 当心 不 要 丢掉 超前 搜索 的 
字符 ， 因 为 可 能 需要 它 作 为 下 一 个 要 扫描 的 词法 记号 的 开头 。 为 控制 对 输入 字符 的 使 用 ， 我 们 使 用 来 自 
C 语 言 标准 MO 库 的 两 个 例 程 : 


#include <stdio.h> 

/* getc() is usually a macro */ 
extern int getc(FILE *); 

extern int ungetc(int, FILE *); 


gete (EA ^4 ATE EDR A E SE ELBE PES, Muti “THR” RASH. 
ungete( ) 将 一 个 字符 放 回 当前 正在 读 取 的 文件 ， 因 此 下 一 次 调用 getc() 将 返回 该 字符 ， 而 文件 位 置 指 
针 并 未 改变 。C 语 言 标准 MO 库 可 保证 完成 一 个 字符 的 “ 压 回 ”操作 。 

有 时 ， 超 前 搜索 一 个 字符 和 压 回 一 个 字符 是 不 够 的 。 在 这 种 情况 下 ， 词 法 分 析 器 必须 实现 它 自己 的 
缓冲 机 制 。 不 过 ， 这 通常 是 很 简单 的 。 | | 

在 Pascal 语 言 中 ， 词 法 分 析 器 驱动 程序 以 不 同 的 方式 操纵 它 的 输入 。 通 过 input^ 查 看 当前 字符 并 随 
后 当 字 符 有 效 时 通过 get(input) 消 耗 它 。 


ScanGen 表 格 的 确切 格式 在 附录 B 中 详 述 。 控 制 词法 分 析 的 表格 称 为 action 表 。action[state][ch] | 


可 指示 一 个 移动 (move) 动作 (继续 扫描 ) 或 停止 (halt) 动作 (已 经 识别 了 一 个 词法 记号 )。 因 为 
可 能 需要 查阅 超前 搜索 的 字符 ， 而 且 扫描 过 的 字符 可 能 需要 被 丢弃 或 者 保留 ， 所 以 动作 表 包 含 6 种 不 
同 的 值 : 

(1) ERROR 

词法 记号 错误 。 没 有 可 识别 的 有 效 词法 记号 。 

(2) MOVEAPPEND 

移动 到 下 -一 个 状态 。 消 耗 当 前 字符 并 将 其 添加 到 正在 构造 的 词法 记号 串 末 尾 。 

(3) MOVENOAPPEND 

移动 到 下 一 个 状态 。 消 耗 当 前 字符 但 不 将 其 添加 到 正在 构造 的 词法 记号 串 末 尾 。 

(4) HALTAPPEND 

消耗 当前 字符 并 将 其 添加 到 正在 构造 的 词法 记号 字符 串 末 尾 。 已 经 找到 了 一 个 有 效 的 词法 记号 。 

(5) HALTNOAPPEND 

消耗 当前 字符 但 不 将 其 添加 到 正在 构造 的 词法 记号 字符 申 末 尾 。 已 经 找到 了 一 个 有 效 的 词法 记号 。 

(6) HALTREUSE 

不 消耗 当前 字符 。 已 经 找到 了 一 个 有 效 的 词法 记号 。 
对 于 移动 动作 ， 下 一 个 要 访问 的 状态 被 存放 在 表格 的 next_state[state][ch] 位 置 。 零 指示 没有 下 一 
个 状态 。 

对 于 停止 动作 ， 通 过 调用 下 面 的 过 程 获得 主 、 次 代码 : 


extern void lookup codes(state current state, 
char cur char, codes *major, codes *minor); 
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在 查找 了 主 、 次 代码 后 ， 通 过 调用 下 面 的 过 程 来 处 理 异 常 : 


extern void check_exceptions(codes *major, 
codes *minor, char *token text); 


如 果 major 和 minor 指 示 一 个 拥有 异常 的 词法 记号 类 ， 则 检查 token_text 以 确定 它 是 否 真 的 是 一 
个 异常 。 如 果 token text 不 是 异常 ， 则 返回 原始 的 代码 。 
在 图 3-4 中 列 出 了 一 个 ScanGen 驱 动 程序 。 

















#define reset() { ind = 0; ^ 
token_text [ind] = '\0’; state = STARTSTATE; } 


extern enum scan state next state[NUMSTATES] [NUMCHARS] ; 
extern FILE *srcfile; 


void scanner(codes *major, codes *minor, 
char *token text) 
i 






major will always be set. minor and 
token text may not be, depending on 

* whether a minor code is used, and whether 
* token characters are saved or tossed. 
*/ 

enum scan state state; 

int ind; 

int c; 

















reset(); 
while (TRUE) ( 
= getc(srcfile); 
switch (action[state][c]) { 
case ERROR: 
/* 
* Do lexical error recovery. 
* ungetc(c, srcfile) may or may 
* not be necessary. 
*/ 
'" break; 











case MOVEAPPEND: 
state = next state[state] [c]: 
token text [ind++] = C; 

break; 







case MOVENOAPPEND: 
state = next_state[state] [c]; 
break; 














case HALTAPPEND : 
lookup : codes (state, c, major, minor): 
token text [indt+t+] = c; 
token ' | text [ind] = /\0'; 
check exceptions (major, minor, token | text); 
if (*major == 0) { 

/* Do not return this token. */ 

reset (); 

continue; 















} 
return; 
case HALTNOAPPEND : 
lookup codes(state, c, major, minor): 
token text[ind] = 'X0'; 
check Lexceptions(major, minor, token text); 
if (*major == 0) { 
/* Do not return this token. */ 
reset (); 
continue; 






3-4 一 个 ScanGen 驱 动 程序 
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} 


return; 


case HALTREUSE: 
lookup codes(state, c, major, minor); 
token text[ind] = ‘\0’; 
check exceptions(major, minor, token text); 
ungetc(c, srcfile); B 
if (*major == 0) { 


/* Do not return this token. */ 
reset(): 
continue; 
) 
- return; 
} /* end switch */ 
) /* end while */ 





图 3-4 (fX) 


3.4.2 Lex 


Lex 是 一 个 由 AT&T 贝 尔 实验 室 的 M.E Lesk 和 E. Schmidt 开发 的 词法 分 析 器 生成 器 。 它 运行 于 UNIX 
操作 系统 下 ， 主 要 和 用 C 语 言 写 的 程序 一 起 使 用 。Lex 的 原始 版 本 也 可 运行 在 GCOS 和 OS/370 下 ， 而 且 能 
够 产生 用 Ratfor 语 言 和 C 语 言 编码 的 词法 分 析 器 。Lex 的 当代 版 本 仅 在 UNIX 操 作 系 统 下 可 用 ， 且 仅 产 生 
用 C 语 言 编码 的 词法 分 析 器 。( 生成 的 词法 分 析 器 不 仅 限于 UNIX 环 境 。) 

Lex 产 生 一 个 完整 的 词法 分 析 器 模块 ， 它 可 被 编译 并 与 其 他 编译 器 模块 连接 。Lex 所 使 用 的 方法 比 
ScanGen 更 广泛 。 特 别 地 ，Lex 将 正则 表达 式 和 任意 的 代码 段 相关 联 。 当 一 个 表达 式 被 匹配 时 ， 将 执行 相 
应 代码 段 。Lex 不 提供 像 主 /次 代码 或 toss 标 志 这 样 的 特殊 功能 ， 因 为 所 有 这 些 (以 及 更 多 的 功能 ) 可 以 
在 用 户 编写 的 代码 段 中 实现 。 图 3-5 说 明 一 个 词法 分 析 器 的 Lex 定 义 ， 它 与 图 3-3 中 的 定义 等 价 。 


E . [Ee] 

OtherLetter [A-DF-Za-df-z] 
Digit (0-9] 

Letter (E) | (OtherLetter) 
IntLit (Digit)* 

$5 

( Ne Nn]* 

[Bb] [Ee] [Gg] (Ii) [Nn] 

(Ee] [Nn] [Dd] minor=0; raturn(5); 
[Rr] [Ee] [Aa] [Dd] minor=0; return (6); 


( /* delete */ 
1 
{ 
{ 

[Ww] [Rr] [Ti] [Tt] [Ee] ( minor-0; return(7): 
i 
( 
( 


minor=0; returní4); 


{Letter} ((Letter) | {Digit} | -)* minorz0; return(1); 
(IntLit) minor=1; return(2); 
({IntLit} [.] (IntLit}) ((E) [t-] ? (IntLit))? minox=2; return(2); 
NI NOV] EAEAN" { stripquotes():; 
mE minor=3; return(2); 
Vr (DN Nn]. | VN) 53n stripquotes();. 
minor=0; return(3): 
minor=0; return (8); 
minor=0; return (9); 
minor=0; return (10); 
minor=0; return(11): 
minor=0; return (12); 
minor=0; return (13) ; 
{ minor=0; return (14); 


/* Strip unwanted quotes from string in yytext; adjust yyleng. 
void stripquotes (void) 
( 


int frompos, topos = 0, numquotes = 2; 





图 3-5 扩展 Micro 的 Lex 定 义 
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for (frompos = 1; frompos < yyleng; frompost+) | 


yytext [topos++] = yytext[frompos]: 

if (yytext[frompos] == '"' && yytext [frompos+1] == '"') I 
frompos++; : 
numquotes-4*; 


} 
} 
yyleng -= numquotes; 
yytext[yyleng] = 'X0'; 


图 3-5 (£X) 


像 在 ScanGen 中 一 样 ， 首 先 定义 字符 类 和 辅助 止 则 表达 式 。 这 些 定义 在 第 一 节 完 成 。( 节 由 “% 
分 隔 符 分 隔 。) 字符 类 由 “[” 和 “]” 界 定 。 除 “\”、“^” 和 “-” 外 的 单个 字符 不 放 在 引号 中 且 不 借 
助 任何 分 隔 符 进 行 连接 。 因 此 ，[xyz] 表 示 可 以 匹配 一 个 x、y 或 z 的 类 。 字 符 范 围 以 “-” 分 隔 。[x-z] 
与 [xyz] 相 同 。“\” 是 转 义 字符 ， 用 来 表示 不 可 打印 字符 和 特殊 符号 。 遵 照 C 语 言 的 习惯 ,，“\n” 是 换行 
WE (即行 结束 符 ),“\t” 是 制 表 符 ,“\\” 是 反 鲜 线 符号 本 身 ， 而 “\10” 是 对 应 八进制 10 的 字符 。““” 
符号 取 一 个 字符 类 的 补 ( 类 似 Not )。[“xy] 是 匹配 除 x 和 y 之 外 所 有 字符 的 字符 类 。 

Lex 提 供 了 标准 正则 表达 式 操作 符 以 及 一 些 扩展 。 连 接 操 作 由 两 个 表达 式 的 并 置 指定 ， 不 使 用 显 式 
操作 符 。 因 此 ，[ab] [cd] 将 匹配 ad、ac、bc 和 bd 中 的 任意 一 个 。 在 字符 类 的 方 括号 外 出 现 的 单个 字母 
和 数字 匹配 它们 自身 。 其 他 字符 需 放 在 引号 中 (以 避免 误 译 为 正则 表达 式 操 作 符 )。 例 如 ，begin 可 由 表 
达 式 begin、"begin" 或 [bl][el[9][i][n] 匹 配 。 

大 小 写 是 有 区 别 的 。 选 择 操作 符 是 “i”。 括 号 通常 用 来 控制 子 表达 式 分 组 。 因 此 ， 在 上 面 的 定义 中 ， 
为 匹配 允许 大 小 写 混合 的 保留 字 end， 可 使 用 : | 

(Ele) (Nin) (Did) 

Lex 中 同时 提供 了 后 缀 运算 符 “*”(Kleene 闭 包 ) 和 “+”( 正 闭 包 ) ， 以 及 “?”( 可 选 包含 ) 。 
Expr? 匹配 Expr 零 次 或 一 次 。 它 和 (expr) | 入 等 价 ， 同 时 避免 了 对 显 式 和 符号 的 需要 。 

符号 “{” 和 “}” 触 发 第 一 节 中 定义 的 符号 的 宏 展 开 。 例 如 ， 因 为 Digit 被 定义 为 [0-9]， 所 以 


” {Digit}+ 展 开 为 [0-9]+。 


第 二 节 定 义 正则 表达 式 和 相应 命令 的 列表 。 当 一 个 表达 式 被 匹配 时 ， 将 执行 它 所 对 应 的 命令 。 如 果 
输入 序列 不 匹配 任何 表达 式 ， 则 该 序列 将 被 简单 地 逐 字 复制 到 标准 输出 文件 。 匹 配 的 输入 存储 在 字符 串 
变量 yytext 中 (其 长 度 为 yyleng)。 命 令 能 以 任何 方式 改变 yytext 并 随后 将 改动 过 的 文本 写 到 输出 文 
fr. 

Lex 创 建 可 从 语法 分 析 器 (如 在 语法 制导 的 编译 中 的 标准 语法 分 析 器 ) 中 调用 的 整 型 函数 yylex()， 
其 返回 值 通常 是 由 Lex 扫 描 的 词法 记号 的 代码 。 像 空白 这 样 的 词法 记号 可 以 通过 在 它们 相应 的 命令 中 不 
返回 任何 值 而 被 简单 地 删除 。 词 法 分 析 将 继续 进行 ， 直 到 执行 到 有 返回 值 的 命令 。 

Lex 不 像 ScanGen 那 样 特别 提供 异常 列表 机 制 。 在 识别 标识 符 时 ， 可 以 调用 像 3.4.1 节 中 的 
check_exceptions ( ) 例 程 那样 的 子 程序 来 识别 异常 并 返回 正确 的 词法 记号 代码 。 

除 此 之 外 ，Lex 还 允许 正则 表达 式 重 又 ( 即 匹 配 公共 的 输入 序列 )。 在 重 又 的 情况 下 ,应 用 两 条 规则 。 
首先 ， 执 行 最 长 可 能 匹配 。Lex 在 需要 时 自动 进行 缓存。 其 次 ， 如 果 两 个 表达 式 匹 配 相同 的 字符 串 ， 则 
和 洗 择 较 早 声明 的 表达 式 (以 在 Lex 规 范 中 的 定义 为 序 )。 因 此 ， 可 通过 将 ( 仅 匹配 特定 字符 串 的 ) 特殊 表 
达 式 放 在 一 般 模式 (通常 是 一 个 标识 符 ) 之 前 来 处 理 异 常 。 

Lex 中 没有 特别 提供 主 、 次 词法 记号 代码 机 制 。 通 常 ， 主 词法 记号 代码 会 作为 调用 Lex 生 成 的 词法 
分 析 器 yylex( ) 的 返回 结果 。 如 果 需 要 ， 次 词法 记号 代码 可 以 放 在 一 个 共享 变量 中 返回 。 

Lex 中 疫 有 丢弃 机 制 。 因 此 ， 必 须 在 返回 前 处 理 词法 记号 文本 (存放 在 yytext 中 )。 这 容易 通过 调 
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用 一 个 子 例 程 〈 紧 随 表 达 式 和 命令 列表 ， 在 第 三 节 中 定义 ) 重新 处 理 词法 记号 文本 来 完成 。 例 程 
stripquotes () 是 这 类 例 程 的 一 个 示例 。 
在 Lex 中 ， 文 件 结束 不 由 正则 表达 式 来 处 理 ， 而 是 通过 yylex() 返回 整数 值 零 来 表示 EOF 词 法 记号 。 
由 语法 分 析 器 来 将 零 返 回 值 识别 为 表示 EOF 词 法 记号 。 
如 果 要 扫描 多 个 源 文件 ， 可 通过 隐藏 在 词法 分 析 器 内 部 的 机 制 来 完成 。YyYy1lex( ) 使 用 三 个 用 户 自 定 
义 函 数 来 处 理 字符 输入 和 输出 。 它 们 是 : | 
input () 获得 一 个 字符 ， 遇 到 文件 结束 时 返回 0。 


output (c) 将 一 个 字符 写 到 输出 。 
unput (c) 将 一 个 字符 放 回 输入 以 便 重新 读 入 。 


当 yylex( ) 遇 到 文件 结束 时 ， 它 调用 一 个 用 户 自 定义 的 名 为 yywrap( ) 的 整 型 函数 。 该 例 程 的 目的 
是 “包装 ”输入 处 理 。 如 果 没 有 更 多 的 输入 ， 它 返回 值 1。 否 则 ， 它 返回 零 并 准备 由 input ( ) 提 供 更 多 
的 字符 。 . 
编译 器 编写 者 可 以 提供 input ()、output()、unput() 和 yywrap() 函数 (通常 作为 C 语 言 的 宏 )。 
Lex 提 供 默认 版 本 ， 来 从 标准 输入 读 取 字符 并 将 它们 写 到 标准 输出 。yywrap( ) 的 默认 版 本 简单 地 返回 1， 
表示 没有 更 多 的 输入 。(output( ) 的 使 用 允许 将 Lex 用 作 一 个 工具 ， 来 产生 独立 的 用 来 转换 数据 流 的 数 
据 “过 滤器 。) 

总 之 ，Lex 是 一 个 非常 实用 的 生成 器 ， 它 可 以 转换 输入 〔 例 如， 作为 预 处 理 器 )， 同 时 也 可 以 划分 或 
扫描 输入 。 除 了 这 里 所 讨论 的 内 容 ， 它 还 提供 许多 高 级 特性 。 它 需要 代码 片段 用 C 语 言 编 与 ， 这 使 得 它 不 
依 仅 产生 整数 表格 的 ScanGen 那 么 通用 。 Lex 是 供 编 译 器 编写 者 使 用 的 词法 分 析 器 生成 器 工具 类 的 代表 。 

Lex 广 泛 使 用 于 UNIX 社 区 内 ， 而 在 其 外 界 则 较 少 使 用 。 对 于 生成 编译 器 来 说 ， 它 并 不 足够 高 效 ， 但 
可 以 为 其 编写 更 高 效 的 实现 版 本 。 事 实 上 ，Jacobsen (1987) 近来 的 工作 表明 可 以 改进 Lex 以 使 得 它 总 
是 比 手写 的 词法 分 析 器 运行 得 更 快 。Lex 也 已 经 被 重新 实现 。Flex (Fast Lex[Paxson 1990]) 是 一 个 可 免 
费 发 行 的 Lex 克 隆 。 它 产生 的 词法 分 析 器 比 Lex 产 生 的 词法 分 析 器 快 得 多 。 Flex 也 提供 允许 调整 词法 分 析 
器 大 小 和 速度 的 选项 ， 以 及 一 些 Lex 所 没有 的 特性 《比如 支持 8 位 的 字符 )。 Flex 容 易 获 得 ， 可 免费 发 布 ， 
与 Lex 兼 容 ， 同 时 比 Lex 运 行 得 更 好 。 因 此 ， 我 们 推荐 使 用 Flex。 

另 一 种 有 趣 的 选择 是 GLA (Generate Lexical Analyzer, 生成 词法 分 析 器 {Gray 19981)。GLA 使 用 基 
于 正则 表达 式 的 词法 分 析 器 描述 和 公共 词法 惯用 语 库 (比如 “Pascal 的 注释 ”)， 产 生 用 C 语 言 编 写 的 可 
直接 执行 的 ( 即 ， 非 DFA 驱 动 的 ) 词法 分 析 器 。 GLA 在 设计 时 就 考虑 到 要 使 生成 的 词法 分 析 器 既 易 于 使 
用 又 很 高 效 。 


35 实现 时 考虑 的 问题 


本 节 讨 论 在 为 真正 的 程序 设计 语言 构造 真正 的 词法 分 析 器 时 需要 考虑 的 实际 问题 有 人 可 能 会 想 ， 
我 们 描述 的 有 限 自动 机 模型 有 时 是 不 足 的 ， 必 须 予 以 补充 。 而 且 ， 一 些 错误 处 理 机 制 必须 结合 到 现实 世 
” 界 的 词法 分 析 器 中 。 
| 我 们 将 按 顺 序 讨论 许多 潜在 的 问题 领域 。 在 每 种 情况 下 ， 将 评价 各 种 解决 方案 ， 尤 其 是 结合 我 们 已 
经 研究 过 的 词法 分 析 器 生成 器 。 


351 保留 字 


实际 上 ， 所 有 的 程序 设计 语言 都 有 匹配 普通 标识 符 词法 结构 的 符号 (如 if 和 begin)。 这 些 符号 被 称 
为 关键 字 (key word). 如 果 语 言 规定 关键 字 不 能 用 作 程 序 员 定义 的 标识 符 ， 则 它们 又 称 为 保留 字 
(reserved word， 即 它们 被 保留 用 作 特 殊 用 途 )。 





LIEN II 


大 多 数 程序 设计 语言 选择 将 关键 字 保留 。 这 样 做 简化 了 语法 分 析 ， 而 语法 分 析 驱 动 着 编译 过 程 并 使 
程序 更 加 易 读 。 例 如 ， 假 定 在 Pascal 语 言 中 begin 和 end 不 是 保留 的 ， 而 一 些 步 人 歧途 的 程序 员 已 经 声明 
名 为 begin 和 end 的 过 程 。 下 列 程 序 能 够 以 许多 方式 进行 语法 分 析 ， 因 此 它 的 含义 并 没有 被 良好 定义 : 


通过 精心 设计 ， 可 以 避免 明显 的 二 义 性 。 例 如 ， 在 PL/I 语 言 中 关键 字 不 被 保留 ， 但 使 用 显 式 的 call 
关键 字 来 调用 过 程 (如 call P)。 尽 管 如 此 ， 由 于 关键 字 可 用 作 变 量 名 ， 仍 会 有 很 多 费解 的 用 法 : 

if if then else = then; | 

保留 字 的 问题 是 :如果 它 们 太 多 ， 就 会 使 那些 没有 经 验 的 程序 员 感到 困惑 ， 他 们 可 能 无 意 中 选 择 了 
和 保留 字 相 冲突 的 变量 名 。 这 通常 会 在 一 些 程序 中 导致 语法 错误 。 那 些 程序 “看 起 来 正确 "， 但 事实 上 
只 有 假设 那些 可 疑 符号 不 是 保留 字 时 程序 才 会 正确 。COBOL 语 言 在 这 个 问题 上 声名 狼藉 。 它 有 数 百 个 
保留 字 。 例 如 ， 在 COBOL 中 ，zero 是 个 保留 字 ，zeros 也 是 。 而 zeroes 还 是 ! 

保留 字 看 起 来 像 标识 符 ， 这 使 得 通过 正则 表达 式 定义 的 词法 分 析 器 规范 变 得 极其 复杂 。 在 练习 20 中 
证 明 使 用 Not 的 任意 正则 表达 式 等 价 于 一 个 不 使 用 Not 的 正则 表达 式 。 因 此 ， 可 以 通过 除去 表达 式 中 的 
Not 得 到 一 个 非 保留 ld 的 正则 表达 式 : 

Not (Not(Id) | begin | end | ---) 

我 们 也 可 以 直接 写 下 正则 表达 式 。 然 而 ， 它 将 会 非常 长 而 且 很 复杂 。 仅 仅 设想 一 下 ,假设 END 是 
惟一 的 保留 字 ， 而 词汇 表 中 仅 含 字母 ， 可 以 写 : | 
| Nonreserved = L | (L L) | (E LL) L') | (E - 'E) U)1 

(L (L - 'N) L') i (EE (L- 'D'L) 

( 即 ， 任 意 多 于 或 少 于 三 个 字母 ， 或 不 以 E 开 头 ， 或 N 不 在 其 第 二 个 位 置 ， 等 等 。) 

一 个 更 简单 的 解决 方案 是 将 保留 字 看 作 普 通 标识 符 ( 就 正则 表达 式 而 言 ) 并 使 用 一 张 单独 的 表格 进 
行 查找 以 发 现 保留 字 。 也 就 是 说 ， 将 保留 字 视 为 普通 标识 符 的 异常 情况 。 在 扫描 到 一 个 像 标 识字 的 记号 
后 ,查阅 异 常 表 来 判断 是 否 识别 了 一 个 保留 字 。 如 果 保 留 字 区 别 大 小 写 ， 则 异常 查找 需要 精确 匹配 ; 否 
则 ， 在 进行 查找 前 ， 词 法 记号 被 转换 为 标准 形式 (全 大 写 或 全 小 写 )。 

可 以 用 多 种 方式 组 织 异 常 表 。 最 普通 的 组 织 方式 是 一 个 适 于 进行 二 分 查找 的 有 序 异 常 表 。 也 可 以 使 
用 哈 希 表 。 例 如 ， 词 法 记号 的 长 度 可 以 用 来 作为 异常 表 中 相同 长 度 异常 的 索引 。 如 果 异 常 长 度 良好 地 分 
布 ， 则 需要 很 少 的 几 次 比较 就 可 以 确定 一 个 词法 记号 是 标识 符 还 是 保留 字 。Cichelli (1980) 已 经 证 明 ， 
有 可 能 构造 完美 的 哈 希 函数 。 也 就 是 说 ， 每 个 保留 字 被 映射 到 异常 表 中 的 惟一 位 置 ， 且 表 中 没有 未 使 用 
的 位 置 。 一 个 词法 记号 要 么 是 由 哈 希 函数 选择 的 保留 宇 ， 要 么 是 普通 标识 符 。 

识别 保留 字 的 第 三 种 方法 是 为 每 个 保留 字 构 造 单独 的 正则 表达 式 。 如 果 所 使 用 的 词法 分 析 器 生成 器 
多 许 多 个 正则 表达 式 匹 配 同一 个 字符 序列 (大 多 数 词法 分 析 器 生成 器 确实 允许 这 样 ) ， 则 这 种 方法 是 可 
行 的 。 这 种 方法 的 真正 问题 是 底层 有 限 自动 机 以 及 它 的 转换 表 将 非常 大 。 这 有 两 个 原因 。 首 先 ， 由 于 并 
韭 所 有 字母 都 映射 到 单独 的 类 ， 因 此 字符 类 的 数量 将 大 大 增加 。 根 据 保留 字 的 数量 和 拼写 ， 仅 对 字母 就 
将 有 26 个 (其 至 52 个 ) 类 。 第 二 个 问题 是 自动 机 状态 数 将 大 大 地 增加 ， 新 的 状态 代表 部 分 匹配 的 保留 字 。 

即使 在 像 Micro 这 样 简单 的 语言 中 ， 为 〈 全 部 的 四 个 ! ) 保留 字 构 造 正则 表达 式 也 会 导致 表 的 尺寸 
大 大 增加 。 使 用 3.4.1 节 中 图 3-3 的 定义 (其 中 将 保留 字 视 为 异常 )， 将 创建 12 个 状态 和 17 个 字符 类 。 当 4 
个 保留 字 由 单独 的 正则 表达 式 表示 时 ， 则 需要 30 个 状态 和 26 个 字符 类 。 假 定 用 简单 数组 表示 转换 表 ， 则 
产生 四 倍 的 增 量 。 而 在 像 Ada 和 Pascal 这 样 的 语言 中 ， 保 留 字数 量 巨大 ， 因 此 将 会 产生 多 得 多 的 状态 和 





字符 类 。 


3.5.2 编译 器 指示 与 源 程序 行列 表 


编译 器 指示 和 pragma 用 来 控制 编译 器 选项 (列表 、 优 化 、 性 能 剖析 ， 等 等 )。 它 们 可 能 由 词法 分 析 
器 或 语义 例 程 处 理 。 如 果 指 示 是 简单 的 标志 ， 则 可 由 词法 记号 中 提取 (可 能 使 用 丢弃 /保存 机 制 )。 然 后 
执行 相应 命令 ， 最 终 该 记号 被 删除 。 更 多 复杂 的 指示 ， 像 Ada 语 言 中 的 pragma， 拥 有 非 平凡 结构 ， 并 可 
以 像 其 他 任何 语句 一 样 进行 语法 分 析 和 转换 。 

词法 分 析 器 也 可 能 不 得 不 处 理 源 代码 包含 指示 (source inclusion directive)， 这 将 导致 它 读 取 并 扫 
描 一 个 文件 的 内 容 。 像 C 这 样 的 语言 拥有 复杂 的 宏 定 义 和 展 开机 制 ， 通 常 在 词法 分 析 和 语法 分 析 之 前 的 
预 处 理 阶段 进行 处 理 。 | 

一 些 语 言 ( 像 C 和 PL/I) 包含 条 件 编译 指示 (conditional compilation directive), 来 控制 语句 是 被 编 
译 还 是 被 和 忽略。 这样 的 指示 可 用 来 从 公共 的 源 代码 创建 程序 的 不 同 版 本 。 通 常 这 些 指 示 拥 有 放 语 句 的 一 
般 形 式 ， 因 此 要 分 析 并 计算 一 个 条 件 表达 式 。 紧 随 表 达 式 的 词法 记号 将 被 传递 给 语法 分 析 器 或 被 名 略 ， 
直到 到 达 一 个 end 计 分 隔 符 为 止 。 如 果 条 件 编译 结构 可 以 嵌 套 ， 将 需要 一 个 针对 指示 的 框架 式 语法 分 析 
器 (skeletal parser). 

词法 分 析 器 的 另 一 个 可 能 的 功能 是 烈 出 源 代 码 行 。 尽 管 这 看 起 来 是 个 无 关 紧 要 的 功能 ， 但 有 必要 稍 
加 关注 。 产 生源 代码 列表 的 最 明显 方式 是 在 读 入 字符 时 进行 回 显 ， 使 用 行 结束 条 件 来 终止 一 行 ， 增 加 行 
计数 器 ， 等 等 。 然 而 这 种 方法 有 很 多 问题 : 

。 可 能 需要 打印 错误 信息 ， 而 这 些 (如 果 可 能 的 话 ) 应 当 写 在 源 代码 行 后 面 ， 其 中 含有 指向 出 错 符 

号 的 指针 。 | 

。 源 代码 行 可 能 需要 在 输出 前 进行 编辑 。 这 可 能 涉及 插入 或 删除 符号 〈 例 如 对 于 错误 修复 )、 蔡 换 

符号 (因为 宏 预 处 理 ) 以 及 重新 格式 化 符号 (对 程序 进行 优美 打印 )。 

。 读 入 的 源 代码 行 和 输出 的 源 代码 行列 表 通 常 不 是 一 一 对 应 的 。 例 如 ， 在 UNIX 中 ， 源 程序 可 以 合 

法 地 压缩 到 单独 一 行 中 (UNIX 对 于 行 的 长 度 没有 预先 的 限制 )。 试 图 缓存 整个 源 代码 行 的 词法 分 

析 器 肯定 会 超出 缓 促 区 长 度 。 

基于 这 些 考 虑 ， 在 扫描 词法 记号 时 ， 最 好 递增 地 构造 (通常 由 设备 限制 所 限定 的 ) MNT. WER 
出 缓冲 区 中 的 词法 记号 映像 可 能 并 非 恰好 是 被 扫描 的 词法 记号 映像 ， 这 取决 于 错误 修复 、 优 美 打印 、 六 
小 写 转换 或 任何 其 他 需要 的 处 理 。 如 果 一 个 词法 记号 不 适合 放 在 某 一 输出 行 ， 该 行将 被 写 到 输出 中 ， 而 
缓冲 区 被 清除 。( 为 简化 编辑 ， 行 号 应 该 对 应 源 程序 行 . ) 在 极 少 的 情况 下 需要 拆散 一 个 词法 记号 ; 例如 ， 
如 果 一 个 字符 串 太 长 以 至 于 超过 了 输出 行 长 度 限 制 。 

词法 分 析 器 返回 每 个 词法 记号 时 ， 也 应 当 包含 该 词法 记号 在 输出 行 缓冲 区 中 的 位 置 。 如 果 发 现 涉及 
该 词法 记号 的 错误 ， 则 使 用 位 置 标记 来 指向 该 词法 记号 。 错 误 信息 自身 被 缓存 并 通常 在 相应 输出 缓冲 区 
内 容 输出 时 立即 进行 打印 。 在 某 些 情况 下 ， 一 个 错误 可 能 要 到 包含 该 错误 的 行 已 被 处 理 之 后 很 久 才 被 检 
测 到 。 这 种 情况 的 一 个 例子 是 goto 语 句 跳 转 到 未 定义 的 标号 。 如 果 这 样 的 延迟 错误 很 少见 〈 像 在 Ada 和 
Pascal 中 那样 )， 则 可 以 产生 一 条 引用 行 号 的 信息 一 一 例如 ，“ 示 定义 的 标号 ， 在 语句 101 中 。” 在 允许 自由 
地 前 置 引 用 的 语言 中 ， 可 能 有 很 多 延迟 错误 。 例 如 ，PL/I 人 允许 对 象 引 用 后 再 声明 。 在 这 种 情况 下 ， 可 以 
互 _ 个 以 行 号 为 关键 字 的 错误 信息 文件 ， 并 随后 将 它 与 处 理 过 的 源 代码 行 合并 产生 完整 的 源 代码 列表 。 

UNIX 的 方法 是 编译 器 应 当 专注 于 生成 代码 ， 而 将 列表 和 优美 打印 等 功能 交 给 其 他 工具 。 当 然 ， 迹 
样 做 极 大 地 简化 了 词法 分 析 器 。 


353 符号 表 中 的 标识 符 条 目 


在 仅 有 全 局 变量 和 声明 的 简单 语言 中 ， 若 某 标识 符 还 不 在 符号 表 中 ， 通 常 由 词法 分 析 器 立即 将 其 加 








入 符号 表 。 不 论 标记 符 应 当 加 入 符号 表 还 是 已 经 在 表 中 ， 词 法 分 析 器 都 返回 指向 符号 表 条 目的 指针 。 

在 块 结构 的 语言 中 ， 因 为 标识 符 可 以 用 于 许多 上 下 文中 (作为 变量 , 或 在 声明 中 作为 记录 域 、 标 号 ， 
等 等 )， 所 以 通常 不 是 由 词法 分 析 器 将 标识 符 添加 到 符号 表 中 或 在 表 中 查找 标识 符 。 词 法 分 析 器 一 般 不 
可 能 知道 何 时 应 当 将 一 个 标识 符 添 加 到 当前 作用 域 的 符号 表 中 ， 以 及 何 时 应 当 返 回 指向 先前 作用 域 中 实 
例 的 指针 。 因 此 ， 最 好 返回 字符 串 自身 ， 并 允许 单独 的 语义 例 程 解析 标识 符 的 预期 用 法 。 通 常 ， 用 字符 
串 空间 (string space) 来 表示 标识 符 ( 见 第 8 章 )， 因 此 词法 分 析 器 可 以 将 标识 符 加 入 字符 串 空间 并 返回 
字符 串 空间 指针 而 不 是 实际 的 文本 。 | 

在 某 些 语言 (例如 C 语 言 ) 中 ,大 小 写 是 有 区 别 的 。 但 在 其 他 语言 ( 像 Ada 和 Pascal) 中 ， 大 小 写 是 
没有 区 别 的 。 如 果 大 小 写 有 区 别 ， 标 识 符 文本 必须 在 扫描 时 被 精确 地 返回 。 保 留 字 查找 必须 区 分 仅 大 小 
写 不 同 的 标识 符 和 保留 字 。 另 一 方面 ， 如 果 大 小 写 没有 区 别 ， 则 需要 保证 标识 符 或 保留 字 拼写 中 的 大 小 
写 差 别 不 会 导致 错误 。 一 个 容易 的 办 法 是 对 于 所 有 被 扫描 的 词法 记号 ， 在 将 其 返回 或 在 保留 字 表 中 进行 
查找 之 前 ， 作 为 标识 符 被 转换 成 一 致 的 大 小 写 形式 。 


3.5.4 词法 分 析 器 的 终止 


词法 分 析 器 被 设计 用 来 读 取 输入 字符 并 将 它们 划分 为 词法 记号 。 当 到 达 输 入 结尾 时 会 发 生 什 么 情 
mo 在 发 生 这 种 情况 时 ， 创 建 一 个 Eof 伪 字符 是 方便 的 。 这 样 做 将 允许 定义 一 个 可 被 回 传 给 语法 分 析 絮 
的 Eof 词 法 记号 。Eof 词 法 记号 在 CFG 中 很 有 用 ， 因 为 它 允 许 语法 分 析 器 验证 相应 于 一 个 程序 物理 结尾 的 
逻辑 结尾 。 

如 果 在 到 达 文 件 结尾 后 调用 词法 分 析 器 会 发 生 什么 ? 显然 ， 一 个 致命 错误 会 被 记录 下 来 。 但 这 将 破 
坏 词 法 分 析 器 总 是 返回 一 个 词法 记号 的 简单 模型 。 更 好 的 方法 是 继续 向 语法 分 析 器 返回 Eof 词 法 记号 。 
这 样 做 允许 语法 分 析 器 简洁 地 处 理 终止 问题 ， 尤 其 当 Eof 词 法 记号 仅 在 完整 的 程序 之 后 在 词法 上 有 效 时 。 
如 果 Eof 词 法 记号 出 现 得 太 早 或 太 晚 ， 那 么 语法 分 析 器 可 以 执行 错误 修复 或 产生 适当 的 错误 信息 。 


3.5.5 多 字符 的 超前 搜索 


我 们 可 以 推广 FA 以 越过 下 一 个 输入 字符 进行 超前 搜索 。 该 特性 对 于 实现 FORTRAN 语 言 的 词法 分 析 
很 重要 。 例 如 ， 语 名 DO 1012 1,100 是 一 个 循环 的 开始 ， 其 索引 从 1 变化 到 100。 语 名 DO 10 | = 1.100 
是 对 变量 DO10I 的 赋值 (空白 在 FORTRAN 中 没有 意义 )。 

FORTRAN 词 法 分 析 器 一 直 要 读 到 逗号 (或 句号 ) 后 才 确 定 O 是 否 为 DO 记号 的 最 后 一 个 字符 。( 事 
实 上 ， 在 FORTRAN 的 DO 循环 中 将 “.” 错 误 地 替换 为 “,” 曾 导致 一 艘 宇宙 飞船 发 射 失 败 ! 因为 替换 的 
结果 仍 是 一 条 有 效 语 句 ， 该 错误 直到 运行 时 才 被 发 现 ， 不 过 这 已 经 是 在 火箭 发 射 之 后 。 火 箭 偏离 了 轨道 
并 不 得 不 被 摧毁 。) | m 

该 问题 的 一 个 较为 轻微 的 形式 发 生 在 Pascal 和 Ada 中 : 为 扫描 10..100 ， 需 要 在 10 之 后 超前 搜索 两 个 
字符 。 假 定 使 用 图 3-6 中 的 FA。 给 定 10..100， 我 们 会 扫描 三 个 字符 并 停 在 非 终结 状 态 。 如 果 在 非 终结 状 
态 停止 读 入 ， 可 以 回 退 已 接受 的 字符 直到 找到 一 个 终结 状态 。 回 退 的 字符 将 被 重新 扫描 以 形成 后 来 的 词 
法 记号 。 如 果 在 回 退 中 未 到 达 终 结 状态 ， 则 产生 词法 错误 并 进行 词法 错误 恢复 。 

在 Pascal 或 Ada 中 ， 我 们 知道 从 不 需要 多 于 两 个 字符 的 超前 搜索 ， 它 简化 了 对 要 重新 扫描 字符 的 组 


_ 存 。 除 此 之 外 ， 还 可 以 在 上 面 的 自动 机 中 添加 一 个 新 的 终结 状态 ， 对 应 形 如 (D*) 的 擅 词法 记号 。 如 果 识 


别 出 了 该 词法 记号 ， 则 从 词法 记号 文本 中 删除 结尾 的 “… 并 将 它 缓 存 供 以 后 重用 。 随 后 返回 整数 文字 常 
量 的 词法 记号 代码 。 

在 Ada 中 ， 撤 号 字符 “'” 既 用 作 属 性 符号 (arrayname'length) 又 用 来 界定 字符 文字 常量 UX'). 
Ada 词 法 分 析 器 必须 区 分 这 两 种 用 法 。 考 虚 TypeName' ('a','b')， 第 一 个 撒 号 是 属性 符号 ， 用 来 限定 该 
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聚合 表达 式 的 类 型 。 剩 下 的 扳 号 界定 聚合 中 出 现 的 字符 文字 常量 。 多 数 Ada 词 法 分 析 器 使 用 的 解决 方案 
是 将 勿 号 字符 视 为 特殊 情况 。 当 看 到 抠 号 时 ， 检 查 (由 语法 分 析 器 设置 的 ) 一 个 标志 以 确定 下 一 步 可 以 
读 到 属性 符号 还 是 字符 文字 常量 。 根 据 这 个 标志 ， 扫 描 一 个 单独 的 撤 号 或 一 个 引号 中 的 字符 。 





图 3-6 一 个 扫描 整数 和 实数 文字 常量 和 子 界 算 符 的 FA 


在 扫描 无 效 (invalid) 程序 时 也 可 以 考虑 多 字符 超前 搜索 。 例 如 ，12.3e+q 是 一 个 无 效 词法 记号 。 
在 这 种 情况 下 , 词法 分 析 器 可 以 回 退 以 产生 四 个 词法 记号 。 由 于 该 词法 记号 序列 (12.3, e, +, 9) 是 无 效 的 ， 
因此 语法 分 析 器 在 处 理 该 序列 时 将 检测 到 语法 错误 。 认 为 该 错误 是 词法 错误 还 是 语法 错误 〈 或 两 者 都 是 ) 
都 无 关 紧 要 ， 总 之 编译 器 必须 在 某 个 阶段 检测 到 此 类 错误 。 

很 容易 构造 一 个 能 执行 一 般 回 退 操作 的 词法 分 析 器 。 在 扫描 每 个 字符 时 ， 都 将 它 缓 存 ， 并 设置 一 个 
标志 指示 到 目前 为 止 扫描 的 字符 序列 是 否 是 有 效 的 词法 记号 〈 该 标志 可 以 是 适当 的 词法 记号 代码 )。 如 
果 此 时 我 们 不 在 终结 状态 且 不 能 扫描 更 多 的 字符 ， 将 执行 回 退 操作 。 我 们 从 缓冲 区 右 端 提 取 字 符 并 将 它 
们 加 入 队列 以 重新 扫描 。 该 过 程 将 持续 到 我 们 到 达 被 标志 为 有 效 词法 记号 的 已 扫描 字符 的 前 组 为 止 。 该 
记号 将 由 词法 分 析 器 返回 。 如 果 没 有 前 缀 被 标志 为 有 效 记 号 ， 则 产生 一 个 词法 错误 。 (词法 错误 在 3.5.6 | 75 | 
Sine.) | | 

作为 含有 回 退 的 词法 分 析 示 例 ， 考 虚 先 前 12.3e+q 的 例子 。 下 面 的 表格 说 明 怎样 构造 缓冲 区 及 设置 
标志 : 





integer Literal | 


"do. GRUB. MOCHTEUIETSSWIALET2.3, RETREAT, meris 
新 加 入 队列 以 便 随后 重新 扫描 。 


3.5.6 词法 错误 恢复 | 

词法 分 析 器 有 时 会 检测 到 词法 错误 。 为 了 这 样 一 个 很 小 的 错误 而 停止 编译 是 不 切实 际 的 ， 因 此 几 须 
尝试 其 种 类 型 的 词法 错误 恢复 (lexical error recovery )。 可 以 考虑 两 种 方法 : 

. 删除 到 目前 为 止 读 人 的 字符 并 在 下 一 个 未 读 字符 处 重新 开始 反锁 。 
| 。 删除 词法 分 析 器 读 取 的 首 字符 并 从 其 后 的 字符 恢复 扫 摘 。 | 
珊 种 方法 都 是 合理 的 。 前 者 很 容易 做 到 。 我 们 仅 需 重 置 词法 分 析 器 并 重新 开始 扫描 。 后 者 则 稍 有 点 困难 ， 
但 更 加 安全 (由 于 仅 删除 较 少 的 字符 )。 它 可 以 通过 前 面 讨论 词法 分 析 器 回 退 的 章节 中 所 描述 的 缓存 机 
制 来 实现 。 | | | | 
在 大 多 数 情况 下 ， 词 法 错误 是 由 通常 出 现在 词法 记号 开头 的 某 些 非法 字符 引起 的 。 在 这 种 情 次 下 ， 











上 述 两 种 方法 工作 得 同样 好 。 词 法 错误 恢复 的 结果 可 能 会 产生 语法 错误 ， 而 语法 错误 可 由 语法 分 析 器 检测 
并 恢复 。 例 如 ，… beg#in … 或 许 被 修复 为 … beg in …， 而 这 几乎 肯定 会 导致 语法 错误 。 这 样 的 情况 几乎 
不 可 避免 ， 而 一 个 好 的 语法 错误 修复 算法 将 会 进行 一 些 合理 的 修复 . (尽管 很 可 能 不 是 正确 的 修复 ! )。 

如 本 语法 分 析 器 拥有 语法 错误 修复 机 制 〈 见 第 17 章 )， 则 当 词法 错误 发 生 时 返回 特殊 的 警告 词法 记 
号 是 有 用 的 。 警 告 词法 记号 的 语义 值 是 为 重新 开始 词法 分 析 而 删除 的 字符 串 。 当 语法 分 析 器 看 到 警告 词 
法 记号 时 ， 它 被 警告 下 一 个 词法 记号 不 可 靠 并 可 能 需要 错误 修复 。 此 外 ， 被 删除 的 文本 也 可 能 有 助 于 选 
择 最 合适 的 修复 。 

某 些 词法 错误 需要 特别 留心 。 尤 其 是 ， 失 控 字 符 串 和 注释 应 当 接 收 特殊 错误 信息 。 首 先 考 虑 失控 字 
符 串 。 由 于 通常 不 允许 字符 串 跨越 行 边界 ， 因 此 当 遇 到 行 结束 时 才 会 检测 到 失控 字符 串 。 普 通 的 恢复 方 
法 可 能 不 适 于 这 种 错误 。 特 别 是 ， 由 于 不 恰当 地 将 字符 串 文 本 作为 普通 输入 来 分 析 ， 删 除 首 字符 《引号 ) 
并 重新 开始 词法 分 析 几 乎 一定 会 导致 更 多 的 级 联 错误 。 

捕获 失控 字符 串 的 一 种 方法 是 引入 错误 词法 记号 (error token ) ， 表 示 字 符 串 由 行 结束 符 而 不 是 引号 
终止 。( 这 在 ScanGen 和 Lex 示 例 中 做 过 说 明 。) 因此 ， 对 于 正确 引用 的 字符 串 ， 可 以 有 : 


" (Not(" | Eo) |") " 
而 对 于 失控 字符 串 ， 应 当 使 用 : 
" (Not(" | Eol) |)" Eol 


其 中 ，Eol 是 行 结束 字符 。 当 识别 出 失控 字符 串 词法 记号 时 ， 应 当 产 生 特 殊 的 错误 信息 。 此 外 ， 字 符 串 
可 以 通过 返回 其 中 除去 了 开头 的 引号 和 结尾 的 Eol 的 普通 字符 串 记号 (就 像 除 去 开头 和 结尾 引号 的 普通 
字符 串 ) 而 被 修复 为 正确 的 字符 串 。 注 意 ， 尽 管 如 此 ， 这 种 修复 可 能 是 也 可 能 不 是 “正确 的 "。 如 果真 
是 丢掉 了 结尾 的 引号 ， 则 这 个 修复 是 好 的 ; 如 果 结 尾 的 引号 出 现在 后 续 行 中 ， 则 会 接着 产生 不 适当 的 级 
联 词 法 和 语法 错误 。 | 
”在 像 Pascal 这 样 的 语言 中 允许 多 行 注释 。 失控 注释 会 造成 类 似 的 问题 。 失 挖 注释 直 到 词法 分 析 故 发 

现 (可 能 属于 另 一 个 注释 的 ) 注释 结束 符号 或 直到 过 到 文件 结束 时 才 会 被 检测 到 。 显然 ， 需 要 特殊 的 错 
误 信息 。 为 处 理 以 Eof 终 止 的 注释 ， 再 次 使 用 错误 词法 记号 方法 : 

(Not()') 和 (Not() Eof 


为 了 处 理由 属于 另 一 个 封闭 注释 的 结束 符 结尾 的 注释 (例如 ，{… missing close comment … ( normal 
comment 食 ) ， 我 们 会 发 出 警告 (但 不 是 错误 信息 ， 因 为 这 种 形式 的 注释 在 词法 上 是 合法 的 )。 特 别 是 ， 
内 含 一 个 注释 开始 符号 的 注释 最 有 可 能 是 上 述 类 型 朴 忽 的 征兆 。 因 此 ， 我 们 将 合法 的 注释 定义 拆 分 成 两 
个 词法 记号 。 其 中 一 个 在 其 内 部 接受 一 个 注释 开始 符号 ， 将 导致 打印 一 个 警告 信息 (“Possible unclosed 
comment”( 可 能 未 封闭 的 注释 ))。 现 在 我 们 有 


{ Not({ 1 )* } 1 ( (Not({ 1 })* { Not({ ! )")* } Ade { Not)" Eof 


. 第 一 个 定义 匹配 其 中 不 包含 注释 开始 符号 的 正确 注释 。 第 二 个 定义 匹配 其 中 至 少 包 含 一 个 注释 开始 符号 


的 注释 。 这 些 注释 是 正确 的 ， 但 将 导致 产生 一 条 警告 信息 。 第 三 个 定义 匹配 以 Eof 结 束 的 失控 注释 。 这 
些 词法 记号 导致 产生 一 条 错误 信息 。 E | | 
当然 ，Ada 的 注释 总 是 以 Eol 结 尾 ， 因 此 不 会 受到 失控 注释 问题 的 困扰 。 不 过 ， 它 们 要 求 多 行 注释 中 
的 每 一 行 都 包含 一 个 注释 开始 符号 。 注 意 ， 正 如 在 前 面 所 见 到 的 ， 通 常 嵌 套 注释 (nested comment) 无 法 
被 正确 识别 ， 因 为 FA 和 正则 表达 式 无 法 正确 识别 平衡 的 注释 开始 /注释 结束 记号 序列 。 当 我 们 想 要 注释 嵌 
套 ， 尤 其 是 当 “ 注 释 掉 ”一 段 代 码 (这 段 代 码 自身 也 可 能 含有 注释 ) 时 ， 无 法 识别 这 样 的 序列 将 会 导致 问 
题 。 该 问题 的 通常 解决 方案 是 拥有 两 种 或 是 多 种 类 型 的 注释 分 隔 符 。 例 如 ，UW-Pascal 识 别 三 类 注释 : 1) 
由 “{” 和 “}” 匹 配 的 注释 ，2) 由 “(*” 和 “*)” 匹 配 的 注释 ， 以 及 3) 由 “"” 和 “"” 匹 配 的 注释 。 如 果 某 








类 注释 用 于 一 般 文档 ， 另 一 类 则 可 以 专门 用 来 注释 掉 代 码 段 。 但 是 ， 新 的 Pascal 标 准 规定 注释 可 以 由 某 类 
注释 分 隔 符 开始 而 以 另 一 类 注释 分 隔 符 结束 (例如 ，(* comment) )。 该 规定 使 得 注释 册 套 不 可 能 存在 。 

”正如 先前 所 注意 到 的 ， 对 于 词法 分 析 器 来 说 ， 假 定 一 个 包含 像 Eol 和 Eof 这 样 的 伪 字 符 的 扩展 字符 集 
通常 是 方便 的 。 这 些 伪 字 符 可 以 用 来 定义 正则 表达 式 。 它 们 也 可 以 用 来 控制 格式 〈 使 用 缩 进 、 反 缩 进 和 
换行 伪 字 符 )。 伪 字符 可 以 由 词法 分 析 器 的 读 例 程 创建 (例如 ， 如 果 行 结束 条 件 为 真 ， 则 可 以 返回 Eol)， 
或 者 作为 处 理 编译 器 指示 的 结果 。 这 样 的 编译 器 指示 可 以 通知 对 输入 程序 进行 优美 打印 。 

幸运 的 是 ，C 语 言 和 标准 WO 库 通 过 为 不 可 打印 字符 提供 转 义 序列 (例如 '\n' 代表 换行 ， 而 BOF 代 表 
文件 结束 ) 替 我 们 完成 了 部 分 工作 。 


3.6 将 正则 表达 式 转换 为 有 限 自 动机 


正则 表达 式 等 价 于 FA。 事 实 上 ， 词 法 分 析 器 生成 器 程序 的 主要 工作 是 将 正则 表达 式 定义 转换 为 等 
价 的 FA。 它 首先 将 正则 表达 式 转 换 为 非 确定 有 限 自 动机 (Nondeterministic Finite Automaton, NFA)。 在 
读 取 特 定 输入 时 ，NEA 不 需要 为 访问 哪 一 个 状态 做 出 惟一 (确定 的 ) 选择 。 例 如 ， 如 图 3-7 所 示 ，NFA 被 
人 允许 含有 一 个 状态 ， 该 状态 拥有 两 个 以 同样 符号 标记 的 出 转换 (箭头 )。 如 图 3-8 所 示 ，NFA 中 也 可 以 含 
有 标记 为 和 的 转换 。 


图 3-7 含有 两 个 a 转换 的 NFA 


转换 通常 以 V 中 的 单个 字符 (字母) 标记， 尽管 是 一 个 字符 串 ( 该 字符 串 中 不 含 任何 字符 )， 但 它 绝 ILS 
对 不 是 一 个 字符 。 在 后 一 个 例子 中 ， 当 自动 机 处 于 左边 状态 ， 而 下 一 个 输入 字符 是 a 时 ， 它 可 以 选择 使 用 
标 以 a 的 转换 或 首先 跟随 人 转换 (无论 何 时 你 总 能 找到 转换 ) 然后 跟随 一 个 a 转 换 。 不 包含 和 转换 且 对 于 任 
意 符号 总 是 拥有 惟一 后 继 状 态 的 EA 是 确定 的 〈deterministic ) 。 





图 3.8 含有 一 个 ^ 转 换 的 NFA 


由 正则 表达 式 构造 FA 的 算法 分 为 两 步 : 首先 ， 它 将 正则 表达 式 转换 为 NFA ， 然 后 再 将 NFA 转 换 为 确 
定 的 FA。 第 一 步 非常 简单 。 BRE, 可 以 将 任意 正则 表达 式 转换 为 具有 下 列 性 质 的 NFA: 

。 有 惟一 的 终结 状态 。 

。 终 结 状 态 设 有 后 继 。 

。 每 个 其 他 状态 拥有 一 个 或 两 个 后 继 。 

正则 表达 式 都 是 由 原子 正则 表达 式 a (其 中 a 是 V 中 的 一 个 字符 ) 和 和 通过 三 种 操作 A BHA | BULK 
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A* 构 造 出 来 。 其 他 操作 (CARAT) 只 是 这 些 操作 组 合 的 缩写 。 如 图 3-9 所 示 ，a 和 入 的 NFA 很 简单 。 


O—*—© 
O—+— © 


图 3-9 a 和 入 的 NFA 


现在 假定 已 经 有 了 A 和 B 的 NFA， 想 要 A | B 的 NFA。 构 造 图 3-10 所 示 的 NFA。 标 记 为 A 和 B 的 状态 分 
别 是 A 和 B 的 自动 机 的 终结 状态 。 我 们 为 该 组 合 自动 机 创建 一 个 新 的 终结 状态 。 





图 3-10 A1B 的 NFA 
如 图 3-11 所 示 ， 为 A B 构 造 自动 机 更 容易 。 该 组 合 自动 机 的 终结 状态 与 B 的 终结 状态 为 同一 个 状态 。 


也 可 以 将 A 的 终结 状态 和 B 的 初始 状态 合并 。 我 们 没有 选择 这 样 做 ， 仅 仅 因为 这 样 的 话 ， 图 更 不 容 萝 男 
出 来 。 最 后 ，A* 的 NFA 如 图 3-12 所 示 。 





图 3-1! A B 的 NFA 


3.6.1 构造 确定 的 有 限 自动 机 


NFA N 到 等 价 的 DFA M 的 转换 通过 有 了 时 被 称 为 子 集 构造 (subset construction ) 的 过 程 进行 。M 的 每 

[80] 个 状态 对 应 N 中 状态 的 一 个 集合 。 其 想法 是 ， 在 读 入 给 定 输入 字符 串 后 M 将 处 于 状态 {x,，y z) SERY 

N 能 够 处 于 状态 x、y 或 z 中 的 任意 一 个 (依赖 于 它 所 选择 的 转换 )。 因 此 ， M 记 录 N 可 能 选择 的 所 有 路 径 ， 

并 且 平 行 地 管理 它们 。 M 的 接受 状态 将 会 是 包含 N 的 接受 状态 的 任意 集合 ， 它 反映 了 这 样 一 个 约定 : 如 
果 通 过 选择 “正确 的 ”转换 ， 存 在 任何 一 种 可 以 使 之 到 达 终 结 状态 的 方式 ， 则 N 处 于 接受 状态 。 
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图 3-12 A*AYNFA 


M 的 初始 状态 是 N 在 不 读 人 任何 输入 字符 就 能 处 于 的 状态 一 一 即 ， 由 N 的 初始 状态 仅 跟随 和 箭头 就 可 
以 到 达 的 状态 集 。 算 法 close( ) 计算 那些 仅 通过 入 转换 就 能 到 达 的 状态 。 一 旦 构造 了 M 的 开始 状态 ， 我 
们 就 可 以 开始 创建 后 继 状 态 。 为 此 ， 取 M 的 任意 状态 S， 以 及 任意 字符 c， 计 算 在 面临 输入 c 时 S 的 后 继 。 
S 由 N 的 某 个 状态 集 {ni，nz，…} 确 定 。 我 们 找到 在 面临 输入 c 时 {n nz … } 所 有 可 能 的 后 继 状态 ， 获 得 集 
Amy, m, Jo BIR. HAT = close(mi, ma … )。 将 T 作 为 一 个 状态 加 入 M 中 ， 并 将 一 个 标 以 C 的 从 S 
到 T 的 转换 添加 到 M 中 。 继 续 向 M 中 添加 状态 和 转换 ， 直 到 已 有 状态 的 所 有 可 能 的 后 继 都 已 被 添加 。 因 
为 每 个 状态 对 应 于 N 中 状态 的 一 个 CHER) 子 集 ， 所 以 向 M 中 添加 新 状态 的 过 程 必定 会 终止 。 

下 面 是 入 闭 包 和 DFA 构 造 的 完整 算法 。(C 语 言 中 没有 集合 操作 ， 我 们 通过 类 似 宏 的 记号 对 它们 进行 
简要 描述 。) 


/* 

* Add to S all states reachable from it 
* using only À transitions of N 

* 


void close (set of fa states *S) 


while (there is a state x in S 
and a state y not in S such that 
x—y using a 人 transition) 
add y to S 
} 


使 用 该 过 程 ， 可 以 定义 M 的 构造 : 


void make : deterministic (nondeterministic fa N 
deterministic fa *M) 


( 
set : of _ fa states T; 


M-»initial state = SET OF(N. initial state) ; 
close (& M->initial_ state) : 

Add M-»initial state to M->states; 

while (states or transitions can be added) 


{ 
choose S in M->states and c in Alphabet; 


T - SET OF(y in N.states 

SUCH THAT xy for some x in S) : 
close (& T); 
if (T not in M-»states) 


add T to M-»states; 


Add the transition to M->transitions: sot ; 


) 
M-»final states = 
SET OF(S in M->states SUCH THAT 
N.final state in S): 


} 
为 了 解 子 集 构造 如 何 进行 ， 考 虚 下 面 的 NFA: 





3 


从 状态 1 (N 的 开始 状态 ) 开始 ， 添 加 状态 2 ( 它 的 和 -后 继 )。 因 此 ，M 的 开始 状态 是 {1，2}。 面 临 输入 b 时 
状态 1 和 状态 2 都 没有 后 继 。 面 临 输入 a 时 ，{1，2)} 的 后 继 是 {3，4，5}。 面 临 输入 a 和 b 时 {3，4，5)} 的 后 继 分 
别 是 {5y 和 {4, 5}。 面 临 输入 b 时 {4, 5} 的 后 继 是 {5}。M 的 终结 状态 是 那些 包含 N 的 终结 状态 (5) 的 状态 集 。 
最 终 的 DFA 为 : 








不 难 证 明 : 由 make deterministic() 所 构造 的 DFA 与 原来 的 NFA 等 价 ( 见 练习 22)。 一 个 不 太 明 
显 的 事实 是 我 们 所 构造 的 DFA 有 时 会 比 原来 的 NFA 大 得 多 。DFA 的 状态 由 NFA 的 状态 集 确定 。 如 末 NFA 
有 n 个 状态 ， 则 有 2" 个 不 同 的 NFA 状 态 集 ， 因 此 DFA 可 能 有 2" 个 状态 。 练习 18 讨 论 了 一 个 NFA， 它 实际 展 
示 了 在 被 确定 化 时 其 大 小 的 指数 爆炸 。 幸 运 的 是 ， 由 那些 指定 程序 设计 语言 词法 记号 的 正则 表达 式 所 构 
造 的 NFA， 在 其 确定 化 时 通常 不 会 发 生 这 种 爆炸 问题 。 通 常 ， 用 于 词法 分 析 的 PDFA 既 简单 又 紧凑 。 


3.6.2 优化 有 限 自动 机 


我 们 不 必 停 步 于 由 make_deterministic( ) 所 创建 的 DFA 上 。 有 了 时， 该 DEFA 拥 有 一 些 多 余 的 状态 。 
此 外 ， 已 知 对 于 每 个 DFA 都 有 (就 状态 数 而 言 ) 惟一 最 小 的 等 价 DFA。 换 名 话说， 假定 一 个 PFA (M) 
有 75 个 状态 ,而 拥有 50 个 状态 的 DFA(M') 接受 同一 个 字符 串 集 。 进 一 步 假定 没有 少 于 50 个 状态 的 PFA 
等 价 于 M。 则 M' 是 惟一 拥有 5S0 个 状态 且 等 价 于 M 的 PDFA。 使 用 下 面 讨论 的 技术 ， 有 可 能 通过 使 用 M 替换 
M 对 其 进行 优化 。 事 实 上 ， 这 正 是 ScanGen 的 optimize 选 项 所 做 的 。 

我 们 从 尝试 最 乐观 的 状态 合并 开始 。 按 照 定 义 ， 终 结 和 非 终结 状态 是 截然 不 同 的 ， 因 此 我 们 开始 仅 
试 着 创建 两 个 状态 : 一 个 代表 所 有 终结 状态 的 合并 ， 另 一 个 则 代表 所 有 非 终结 状态 的 合并 。 将 所 有 状态 
仅 合 并 为 两 个 状态 可 能 过 于 乐观 。 特 别 是 ， 对 于 一 个 给 定 字 符 ， 如 果 一 个 合并 状态 中 所 有 成 员 未 能 对 转 
换 达 成 一 致 ， 则 该 状态 必须 被 分 烈 。 作 为 示例 ， 假 定 由 下 面 的 自动 机 开始 : 





初始 时 有 非 终 结 状态 {1，2，3，5，6} 和 终结 状态 {4,，7}。 当 且 仅 当 所 有 成 员 状态 就 相同 后 继 状 态 达成 
_ 致 时 ， 一 个 合并 才 是 合法 的 。 例 如 ， 给 定 字符 c， 状 态 3 和 6 都 将 到 达 终 结 状态 ; 而 状态 1、 2 和 5 则 不 
会 ， 因 此 必须 发 生 分 裂 。 我 们 在 原始 的 DFA 中 添加 一 个 错误 状态 se 作为 面临 任意 非法 字符 时 的 后 继 状态 。 
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(因此 ， 到 达 se 等 价 于 检测 到 非法 词法 记号 。) se 不 是 真正 的 状态 ， 它 只 是 允许 我 们 假定 每 个 状态 在 面临 
每 个 字符 时 都 有 一 个 后 继 。se 从 不 和 任意 真正 的 状态 合并 。 

图 3-13 中 给 出 的 例 程 将 分 裂 那 些 面临 任意 给 定 字 符 、 其 成 员 没 有 公共 后 继 的 合并 状态 。 当 split() 
终止 时 ， 我 们 知道 仍旧 合并 在 一 起 的 状态 是 等 价 的 ， 因 为 它们 总 是 有 公共 后 继 。 


void split(set of fa states *ss) 


do { 
Let S be any merged state corresponding to 
{8, ,..-, s,) and 
let c be any character; 
.., t, be the successor states to 
Sn} under c; 
.., t, do not all belong to the 
same merged state) 


Split S into new states so that s, and 
s, remain in the same merged state if 
and only if t, and t, are in 

the same merged state; 


} 
) while (more splits are possible); 
} 





图 3-13 分 裂 FA 状态 的 算法 


回 到 我 们 的 例子 中 ， 初 始 时 有 状态 {1，2,3，5, 6} 和 {4, 7}。 调 用 split ()， 首 先 观察 到 状态 3 和 6 在 
面临 c 时 有 公共 后 继 ， 而 状态 1、2 和 5 在 面临 c 时 没有 后 继 (或 者 ， 等 价 于 有 错误 状态 ss)。 这 将 导致 一 次 
分 裂 ， 产 生 {1, 2, 5. (9, 6}、{4, 7}。 现 在， 对 于 字符 b， 状 态 2 和 5 会 到 达 合 并 状态 {3, 6}， 但 状态 1 不 会 ， 
因此 发 生 另 一 次 分 裂 。 现 在 有 : C1}. (2, 5}. (3, 6}、{4, 7}。 在 此 已 经 完成 了 分 裂 ， 因 为 合并 状态 的 所 
有 成 员 对 于 每 个 输入 符号 都 有 相同 的 后 继 。 

一 日 执行 了 split()， 就 基本 上 完成 了 优化 。 合 并 状态 间 的 转换 与 原始 DFA 中 状态 间 的 转换 相同 。 


也 就 是 说 ， 如 果 面 临 字符 c， 状 态 si 和 sj 之 间 存在 转换 ， 则 现在 面临 6， 存 在 从 包含 $: 的 合并 状态 到 包含 


的 合并 状态 的 转换 。 开 始 状态 是 包含 原来 的 开始 状态 的 合并 状态 ， 终 结 状态 是 包含 原来 的 终结 状态 的 那 
些 合并 状态 (回想 终结 和 非 终 结 状态 从 不 合并 )。 | 
回 到 刚才 的 例子 ， 我 们 所 获得 的 最 小 状态 自动 机 为 : 


对 二流 最 小 化 算法 的 正确 性 和 车 优 性 的 证 明 可 以 在 Hoperoft and Ullman (1979) 中 找到 . 

FA 可 被 看 作 最 简单 的 CPU， 它 被 设计 用 于 匹配 字符 而 不 是 执行 更 一 般 的 计算 。 正 则 表达 式 则 是 FA 
的 程序 设计 语言 ， 它 们 被 编译 和 优化 为 可 执行 的 形式 。 在 大 多 数 情况 下 ， 我 们 可 以 通过 使 用 〈 像 先前 介 
it) 简单 的 驱动 程序 来 模拟 FA。 然 而 ， 可 以 设想 直接 实现 FA 的 专用 处 理 器 〈 可 能 以 VLSI 芯片 实现 )。 
在 此 方向 上 至 少 报道 过 一 个 实验 。 在 以 词法 分 析 为 一 个 限制 因素 的 任意 应 用 程序 中 ， 专 用 “词法 分 析 引 
Se EMEA. 


练习 
1， 假定 为 Pascal 词 法 分 析 器 提交 下 列 文本 : 


program m(output) ; 
const 
pay-284.00; 





E AA: 


var 

bal: real; 

month:0..60; 
begin 

month :=0; 

bal :=11163 .05; 

while bal>0 do begin 
writeln('Month: ', month:2, 

’ Balance: ', bal:10:2); - 

bal:zbal-(pay-0.015*bal); 
month :=month+1; 
end; 
end. 


生成 什么 词法 记号 序列 ? 对 于 哪些 词法 记号 ， 词 法 记号 文本 必须 与 词法 记号 代码 一 起 被 返回 ? 
， 在 下 面 的 Pascal 程 序 段 中 会 出 现 多 少 词法 错误 〈 如 果 有 的 话 ) ? 词法 分 析 器 如 何 处 理 每 个 错误 ? 


If a = 1. Then b :=1.0else c := 1.0E+N; 
Writeln(''',"Bi there!",'''); 


， 写 出 正则 表达 式 来 定义 下 列 FA 所 识别 的 字符 串 : 





， 写 出 三 个 DFA 来 识别 由 下 列 正则 表达 式 所 定义 的 词法 记号 : 
(a | (bc} d)* 


(011) (213) [0011 

(aNot(a) aaa | 

， 写 出 正则 表达 式 来 定义 Pascal 式 定点 十 进 制 文字 常量 ， 其 中 不 含 多 余 的 开头 或 结尾 的 零 。 即 ，0.0、 
123.01 和 123005.0 是 合法 的 ， 但 00.0、001.000 和 002345.1000 是 非法 的 。 

. 写 出 正则 表达 式 来 定义 由 “(*” 和 “*)” 界 定 的 Pascal 式 注释 。 单 独 的 “* ”和 “)” 可 以 出 现在 注释 
体 中 ,但 字符 对 “*)” 不 可 以 。 C 

， 取 扩展 Micro 的 ScanGen 或 者 Lex 定 义 并 将 其 进一步 扩展 ， 使 其 包含 练习 5 和 练习 6 中 的 定点 十 进 制 文 
字 常 量 和 Pascal 式 注释 的 定义 。 运 行 ScanGen 或 Lex 以 验证 你 的 定义 是 合法 的 。 
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在 3.5.1 节 中 ， 我 们 比较 了 识别 保留 字 的 两 种 方法 : 将 它们 作为 标识 符 词法 记号 的 异常 以 及 为 它们 创 


建 单独 的 正则 表达 式 定 义 。 在 Micro 中 ， 我 们 发 现 当 使 用 单独 的 词法 记号 定义 时 ， 转 换 表 的 大 小 大 约 
增长 为 原来 的 4 倍 。 

(使 用 ScanGen 或 者 Lex ) 重复 该 比较 ， 这 次 使 用 (在 附录 A 中 定义 的 ) Ad CSI IERI: 比较 
词法 分 析 器 的 大 小 和 词法 分 析 器 的 速度 。 你 推荐 使 用 哪 一 种 方法 ? 


， 将 词法 记号 类 AlmostReserved 定 义 为 那些 不 是 保留 字 但 如 果 改 变 其 中 一 个 字符 就 会 变 成 保留 字 的 标 


识 符 。 为 什么 知道 一 个 标识 符 “ 几 乎 ”是 一 个 保留 字 是 有 用 的 ? PEER DO a EIA all 
AlmostReserved 词 法 记号 又 能 识别 普通 保留 字 和 标识 符 ? 


， 当 首次 设计 和 实现 一 个 编译 器 时 ， 明 知 的 艇 法 是 专注 于 设计 的 正确 性 和 简单 性 。 在 编译 器 已 经 被 完 


全 实现 和 测试 之 后 ， 则 有 必要 加 快 编译 速度 。 你 怎样 确定 编译 器 的 词法 分 析 器 组 件 是 否 是 主要 的 性 
能 瓶颈 ? 如 果 是 ， 你 应 该 通过 什么 方式 (在 不 影响 编译 器 正确 性 的 情况 下 ) 改善 性 能 ? 


，、 通 常 编译 器 可 以 产生 被 编译 的 程序 的 源 代码 列表 。 该 列表 通常 仅 是 源 文件 的 一 个 复 本 ， 可 能 汪 


加 了 行 号 和 分 页 符 等 修饰 。 假 如 我 们 希望 产生 优美 打印 的 列表 ( 即 ， 列 表 中 的 文本 正确 缩 进 、 
begin-end 对 对 齐 ， 等 等 ) ， 你 将 如 何 修改 ScanGen 驱 动 程序 以 产生 优美 打印 的 列表 ? 在 Lex 中 
你 又 将 怎么 做 (其 中 完整 的 词法 分 析 器 模块 由 Lex 处 理 器 生成 ) ? 

当 产 生 优美 打印 的 列表 时 ， 编 译 器 诊断 和 行 编号 如 何 变 得 复杂 ? 

对 于 大 多 数 现代 程序 设计 语言 来 说 ， 词 法 分 析 器 只 需要 很 少 的 上 下 文 信息 。 也 就 是 说 ， 可 以 通过 检 


杏 其 文本 ， 或 许 再 加 上 一 个 或 两 个 字符 的 超前 搜索 就 可 以 识别 出 一 个 词法 记号 。 如 3.5.5 节 中 所 讨论 


的 那样 ， 在 Ada 中 ， 需 要 额外 的 信息 来 区 分 一 个 单独 的 撤 写 (构成 一 个 属性 符号 ) 和 一 个 撒 号 、 字 
符 、 投 号 的 序列 〈 构 成 一 个 加 引号 的 字 答 )。 

假定 当 一 个 加 引号 的 字符 可 以 被 分 析 时 ，( 由 语法 分 析 器 ) 设 定 标志 can_Parse_char。 如 过 
下 一 个 输入 字符 是 撤 号 ，can_parse_char 可 以 用 来 控制 如 何 对 撒 号 进行 词法 分 析 。 

说 明 怎样 将 can parse_char 标 志 简 洁 地 集成 到 由 ScanGen 或 Lex 创 建 的 词法 分 析 器 中 。 你 所 
建议 的 改动 应 当 不 会 无 故地 使 普通 词法 记号 的 词法 分 析 复杂 化 或 变 慢 。 


， 不 像 Pascal 或 Ada， FORTRAN 一 般 忽 略 空 白 ， 因此 可 能 需要 大 量 的 超前 搜索 以 确定 怎样 扫描 一 个 输 


入 行 。 先 前 我 们 曾 注 意 到 一 个 很 好 的 例子 : DO 101 = 1 , 10 产生 7 个 词法 记号 ， 而 DO 10 1= 1. 
10 产 生 3 个 词法 记号 。 你 会 息 样 设计 词法 分 析 器 米 处 理 FORTRAN 所 需 的 扩展 的 超前 搜索 ? 
Lex 包 含 一 个 完成 这 种 超前 搜索 的 机 制 。 在 此 例 中 ， 你 怎样 匹配 标 让 识 符 ? 


”因为 FORTRAN 通 常 忽 巾 空 白 ， 包 含 n 个 空白 的 字符 序列 可 以 有 2" 种 不 同 的 词法 分 析 方 式 。 这 些 选 择 


中 的 每 一 种 都 同样 是 可 能 的 么 ”如 果 不 是 ， 你 怎样 改变 练习 13 中 你 所 建议 的 设计 以 首先 检查 最 可 能 
的 选择 ? | 

假设 我 们 正在 设计 最 终 的 程序 设计 语言 ,“Utopia 94". 我 们 已 经 指定 了 该 语言 的 词法 记号 GEHE 
则 表达 式 ) 和 该 语言 的 语法 〈 使 用 CEG ) 。 现在 希望 确定 那些 需要 由 空格 来 分 隔 的 词法 记号 序列 


( 像 begin A) 以 及 那些 在 词法 分 析 中 需要 额外 的 超前 搜索 的 词法 记号 序列 ( 像 1..10)。 说 明 怎 样 才 


能 使 用 正则 表达 式 和 上 下 文 无 关 文 法 自 动 地 找 出 需要 特殊 处 理 的 所 有 词法 记号 对 。 


， 证 明 集 合 { 1i> 1} 不 是 正则 的 。 提 示 : 证 明 没有 固定 数目 的 FA 状态 有 能 力 精 确 匹 配 左 右 方 括号。 


给 出 使 用 3 46 节 的 技术 为 下 面 的 表达 式 构造 的 NEA; 
(a b c)i(abe *) 
使 用 make_deterministic( ) ， 将 该 NFA 转 换 为 DFA。 使 用 3.6:.2 节 的 技术 ， 将 你 所 创建 的 DEA 优 
化 为 一 个 最 小 状态 等 价 。 


， 考 虑 下 面 的 正则 表达 式 .: 





20. 


21. 


22. 


B 


(011) 0(011) (01 1) (011) -… (011) 
夯 出 对 应 该 表达 式 的 NFA。 
WEBA: 等 价 的 DFA 比 你 给 出 的 NFA 大 指数 倍 。 


， 将 正则 表达 式 转换 为 NFA 是 快速 而 简单 的 。 创 建 等 价 DFA 则 较 慢 ， 而 且 会 导致 更 大 的 自动 机 。 一 个 


有 趣 的 变通 办 法 是 使 用 NFA 进 行 词法 分 析 ， 由 此 彻底 消除 构造 DFA 的 需要 。 其 想法 是 在 进行 词法 分 
析 时 模拟 close( ) 操作 和 make_deterministic() 例 程 (如 3.6.1 节 中 的 定义 )。 不 维护 单一 一 个 当 
前 状态 ， 而 是 维护 一 组 可 能 状态 。 读 和 人 字符 时 ， 跟 随从 当前 集合 中 的 每 个 状态 出 发 的 转换 ， 创 建新 
的 状态 集 。 如 果 当 前 集合 中 的 任意 状态 是 终结 状态 ， 则 已 读 入 的 字符 组 成 一 个 有 效 的 词法 记号 。 
为 NFA 定 义 一 种 合适 的 编码 (可 能 是 用 于 DFA 的 转换 表 的 推广 ) 并 遵循 上 面 所 描述 的 状态 集 方法 编 
写 能 够 使 用 该 编码 的 词法 分 析 器 驱动 程序 。 该 词法 分 析 方法 无 疑 会 比 使 用 DFA 的 标准 方法 要 慢 。 在 
什么 情况 下 使 用 NEFA 进 行 词法 分 析 比 较 有 吸引 力 ? 

假设 R 是 任 音 正则 表达 式 。Not(R) 表 示 所 有 不 在 R 所 定义 的 正则 集中 的 字符 串 的 集合 。 证 明 Not(R) 
是 正则 集 。 

提示 : 如 果 R 是 正则 表达 式 ， 则 存在 一 个 用 来 识别 由 R 所 定义 的 正则 集 的 FA。 将 该 FA 转换 为 将 识别 
Not(R) 的 一 个 FA。 

今 Rev 为 将 字符 串 逆 转 的 操作 符 。 例 如 ，Rev(abc) = cba。 令 PR 为 任意 正则 表达 式 。Rev(R) 是 R 所 
代表 的 字符 串 集 ， 其 中 的 每 个 字符 串 都 是 被 翻转 的 。Rev(R) 是 正则 集 么 ? ATA? 

证 明 : 在 3.6.1 节 中 由 make _deterministic() 所 构造 的 DFA 与 原来 的 NFA 是 等 价 的 。 为 此 ， 你 必 
须 证 明 一 个 输入 字符 串 能 够 导向 NFA 中 的 终结 状态 ， 当 且 仅 当 同 样 的 字符 串 会 导向 相应 DFA 的 终结 


状态 。 





第 4 章 文法 和 语法 分 析 


4.1 上 下 文 无 关 文 法 : 概念 与 记号 


在 第 2 章 中 ， 我 们 学 习 了 上 下 文 无 关 文 法 的 基本 知识 。 我 们 现在 来 形式 化 我 们 的 定义 并 引入 一 些 有 
用 的 记号 。 上 下 文 无 关 文 法 (CFG) 由 下 列 四 个 组 件 定义 : 

(1) 一 个 有 限 的 终结 符 词汇 表 (terminal vocabulary) Vi 这 是 由 词法 分 析 器 产生 的 词法 记号 集 。 

(2) 不 同 中 间 符 号 的 一 个 有 限 集 ， 称 为 非 终 结 和 罕 词汇 表 (nonterminal vocabulary) Vno 

(3) 一 个 开始 所 有 推导 的 开始 符号 (start symbol) S € Vs。 开始 符号 有 时 也 称 为 目标 符号 (goal 
symbol ) 。 

(4) P， 产 生 式 (有 时 称 为 重 写 规则 ) 的 一 个 有 限 集 。 产 生 式 的 形式 为 A > X … Xm H 

AeyVvnXeyvnuwyvfTsism,m>0 | 

注意 : A 一 入 是 一 个 有 效 产 生 式 。 

这 些 组 件 通 常 被 归 为 一 个 “四 元 组 ”(V:, Vo S, P)， 这 就 是 CFG 的 形式 化 定义 。 CFG 的 词汇 表 V 是 
终结 符 和 非 终 结 符 的 集合 〈( 即 Vi U Va) 

由 S 开 始 ， 使 用 产生 式 重 写 非 终结 符 直到 只 剩 下 终结 符 ( 在 此 推导 已 经 完成 )。 可 从 S 推 导出 的 字符 
申 集 合 组 成 文法 G 的 上 下 文 无 关 语 言 (context-free language), 由 L(G) 表 示 。 

在 描述 CFG 和 它们 的 语法 分 析 器 时 ， 区 分 是 需要 一 个 单独 的 符号 还 是 需要 一 个 符号 串 有 了 时 显得 很 重 
要 。 类 似 地 ， 有 时 仅 有 终结 符 或 者 非 终 结 符 是 合适 的 ， 而 在 其 他 时 候 任意 词汇 表 符 号 都 可 以 出 现 。 为 精 
确 地 阐明 期 望 什么 类 别 的 符号 和 符号 串 ， 使 用 下 列 记号 约定 : 


a, b, c, … 表示 Vi 中 的 符号 
A, B, C, … 表示 Vn 中 的 符号 
U, V, W, = 表示 V 中 的 符号 
a, B, Yy … 表示 V* 中 的 符号 串 
U, V, W, … 表示 Vt DES E 


使 用 这 种 记号 ， 产 生 式 可 以 写成 A 一 a 或 A 一 X … Xm。 这 种 格式 强调 在 产生 式 的 左边 必须 是 一 个 单独 
的 非 终结 符 ， 但 右边 是 零 个 或 多 个 词汇 表 符 号 组 成 的 串 。 | 
通常 多 个 产生 式 可 以 共享 相同 的 左边 。 一 般 使 用 “或 记号 ”而 不 是 重复 左边 : 


A>alßi >- I6 

这 是 下 列 产生 式 序列 的 缩写 : 
A> a 

AP 

Aat 


如 果 A 一 y 是 一 个 产生 式 ， 则 aAPB 一 ayB， 其 中 一 表示 一 步 推 导 〈《one-step derivation) (使 用 产生 
XA y). 将 二 扩展 到 一 *， 表示 一 步 或 多 步 推 导 ; 而 将 一 扩展 到 一 ， 表示 零 步 或 多 步 推 导 。 如 果 S='P， 
则 6 被 称 为 该 CFG 的 一 个 身 型 (sentential form). SF(G) 是 文法 G 的 句 型 集合 。 类 似 地 , L(G) = (x € 
VS 一 x. ikx: L(G) = SF(G) N V; Bp, G 的 语言 就 是 那些 仅 是 终结 符 串 的 G 的 句 型 。 
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当 推 导 一 个 词法 记号 序列 时 ， 如 果 出 现 多 个 非 终结 符 ， 则 需要 选择 下 一 次 扩展 哪 一 个 。 为 描述 推导 
序列 的 特征 ， 需 要 在 每 一 步 指定 扩展 哪 一 个 非 终 结 符 以 及 应 用 什么 产生 式 。 如 果 采 用 一 个 约定 ， 指 定 在 
每 一 步 必 须 扩展 哪 一 个 非 终结 符 ， 则 可 以 简化 这 种 特征 描述 。 一 个 明显 的 约定 是 在 每 一 步 都 选择 最 左 
(leftmost) 可 能 的 非 终 结 符 。 遵 守 此 约定 的 推导 被 称 为 最 左 推 导 (leftmost derivation )。 如 果 知 道 一 个 推 
导 是 最 左 推导 ， 则 仅 需 指定 使 用 了 什么 产生 式 ， 而 非 终结 符 的 选择 总 是 固定 的 。 为 表示 一 个 推导 是 最 左 
推导 ， 使 用 一 m、=>”m 和 一 mm。 通 过 最 左 推导 序列 产生 的 句 型 被 称 为 左 揣 型 《left sentential form )。 由 一 
大 类 语法 分 析 器 〈 自 顶 向 下 的 语法 分 析 器 ) 所 发 现 的 产生 式 序 列 是 最 左 推导 ， 因 此 ， 我 们 称 这 些 语法 分 
析 器 产生 最 左 语 法 分 析 (leftmost parse). 

作为 示例 ， 考 虑 文法 Go， 它 生成 简单 表达 式 (V 表 示 变 量 ,，F 表 示 函 数 ): 


E — Prefix (E) 
E — V Tail 
Prefix  F 

Prefix ”一 A 

Tail 一 +E 

Tail 一 入 


F(V+V) 的 一 个 最 左 推导 是 : 
E =, Prefix (E) 


+E) 
=, F(V+V Tail) 
=m FON) 


相对 于 最 去 推导 的 另 一 种 推导 是 最 右 推导 (rightmost derivation), APL RAR EH F (canonical 
derivationy)， 其 中 总 是 扩展 最 右边 的 非 终结 符 。 由 于 我 们 通常 从 左 到 右 的 偏好 ， 该 推导 序列 可 能 看 起 来 
不 太 直 观 ， 但 它 很 好 地 对 应 于 一 类 重要 的 语法 分 析 器 ( 自 底 向 上 的 语法 分 析 器 )。 特 别 是 ， 当 一 个 自 底 
向 上 的 语法 分 析 器 发 现 那 些 用 来 推导 一 个 词法 记号 序列 的 产生 式 时 ， 它 发 现 一 个 最 右 推导 ， 不 过 是 逆序 
(reverse order) 的 最 右 推导 。 也 就 是 说 ， 在 最 右 推 导 中 最 后 应 用 的 产生 式 首 先 被 发 现 ， 而 首先 使 用 的 产 
AK (包括 开始 符号 ) 最 后 才 被 发 现 。 由 自 底 向 上 的 语法 分 析 器 所 识别 和 的 产生 式 序列 称 为 最 右 或 规范 语 
法 分 析 ; 注意 ， 它 是 表示 最 右 推导 的 产生 式 序列 的 严格 逆序 。 对 于 最 右 推 导 ， EBES, m 
Flim > 54 (right sentential form) 是 由 最 右 推导 产生 的 句 型。 在 文法 Go 中 F(V+V) 的 最 右 推 导 是 : 
E =m Prefix (E) 
=>, Prefix (V Tail) 
=, Prefix (V+E) 
=>, Prefix (V+V Tail) 


=>,,, Prefix (V«V) 
=m F(V+V) 


推导 通常 由 分 析 树 (parse tree) 表示 。 分 析 树 以 开始 符号 为 根 ， 以 文法 符号 或 人 为 叶 结 点 。 分 析 树 
的 内 部 结 点 是 非 终结 符 。 分 析 树 中 非 终结 符 的 子 结 点 代表 应 用 一 个 产生 式 。 即 ， 结 点 A 可 以 有 子 结局 
X, … X。， 当 且 仅 当 存在 产生 式 A >X … Xmw。 当 推导 完成 时 ， 相 应 分 析 树 的 叶 结 点 是 终结 符 或 和 。 
作为 示例 ， 在 文法 Go 中 相应 于 F(V+V) 的 分 析 树 如 图 4-1 所 示 。 最 左 和 最 右 推导 都 是 分 析 树 的 线性 
如 果 我 们 有 一 个 名 型 ， 则 我 们 知道 它 可 以 从 开始 符号 推出 。 因 此 ， 必 定 存 在 一 个 分 析 树 。 给 定 一 个 
句 型 和 其 分 析 树 ， 该 句 型 的 短语 (phrase) 是 分 析 树 中 单独 的 非 终结 符 下 面 的 符号 序列 。 简 单 算 语 


(simple phrase) 或 素 短 语 (prime phrase) 是 不 含 更 小 短语 的 短语 。 也 就 是 说 ， 简 单 短语 是 由 一 个 非 终 


结 符 直 接 推 出 的 符号 序列 。 名 型 的 身 柄 (handle) 是 其 最 左 简单 短语 。 (简单 短语 不 可 能 重合， 因此 “最 
大 ”是 没有 歧义 的 。) 考虑 图 4-1 中 的 分 析 树 以 及 句 型 F(V Tai). FAV Tail 是 简单 短语 ， THF A. A 
柄 非常 重要 ， 因 为 它们 代表 可 被 不 同 语法 分 析 技 术 所 识别 的 特别 推导 步 又 。 
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仅 限于 形 如 A — a BAC 一 入 的 产生 式 的 CFG 形 成 正则 文法 (regular grammar) 类 。 正 如 其 名 字 所 
上 暗示， 正则 文法 (和 精确) 定义 了 正则 和 集 类 ( 见 练习 6)。 在 第 3 


2 E 
2:384] ITE EET | i> 1} 不 是 正则 的 。 该 语言 可 以 由 一 个 
非常 简单 的 CFG 生 成 : 

S > [T] 
To [T]IiA . 





BOCK TEM (EM) 定义 的 语言 是 上 下 文 无 C 人 
关 语言 的 真子 集 。 /N 
尽管 CFG 广 泛 用 于 定义 程序 设计 语言 的 语法 ， 并 非 所 有 F y Ta 
的 语法 规则 都 能 用 CFG 表 达 。 例 如 ， 变 量 必须 先 定义 再 使 用 
这 一 规则 就 无 法 在 CFG 中 表达 一 一 没有 办 法 可 以 传递 程序 体 中 /\ 
定义 的 变量 的 精确 集合 。 在 实践 中 ， 不 能 在 CFG 中 表示 的 语 + E 
法 细节 被 认为 是 静态 语义 的 一 部 分 ， 由 语义 例 程 (以 及 作用 0 | /N 
域 和 类 型 规则 ) 来 检查 。 | 
可 以 推广 CFG 以 建立 一 个 功能 更 为 丰富 的 定义 机 制 。 上 V Tail 


下 文 相关 文法 (context-sensitive grammar) 要 求 仅 当 非 终结 
符 出 现在 特定 上 下 文中 (例如 aAB 一 058) 时 才能 被 重 与 。 
0- 型 文法 (type-0 grammar) 则 更 为 通用 ， 它 允许 重 写 任 意 模 
A (例如 a> p). 尽管 上 下 文 相关 文法 和 0- 型 文法 比 CFG 更 EAL 相应 于 F(V+V) 的 分 析 因 

强大 ， 但 它们 远 不 如 CEFG 有 用 。 问 题 是 对 于 这 些 扩展 的 文法 类 不 存在 高 效 的 语法 分 析 起 ， 而 没有 语法 分 





析 器 就 无 法 用 文法 定义 来 驱动 编译 器 。 然 而 ， 对 于 大 多 数 种 类 的 CFG ， 确 实 存在 高 效 的 语法 分 析 器 ; 因 


此 ，CFEG 代 表 了 在 通用 性 和 实用 性 之 间 的 一 个 极 好 的 平衡 。 在 本 书 中 ， 我 们 将 集中 讨论 CFG。 无 论 何 时 
我 们 提 到 一 个 文法 (而 没有 说 它 是 什么 类 型 )， 都 将 假定 该 文法 是 上 下 文 无 关 的 。 


42 上 下 文 无 关 文 法 中 的 错误 


CFG 是 一 种 定义 机 制 。 但 是 ， 它 们 可 能 含有 错误 ， 就 像 程 序 那 样 。 某 些 错 误 容易 检测 和 修正 ， 而 男 
一 些 则 较 难 处 理 。 

CEFG 的 基本 概念 是 ， 由 开始 符号 开始 ， 应 用 产生 式 直 到 产生 终结 符 串 。 而 某 些 CFG 是 有 缺陷 的 ， 由 
于 它们 含有 “无 用 的 ” 非 终结 符 。 考 虑 下 面 的 文法 (Gu): 


在 G; 中 ， 非 终结 符 C 不 能 从 S (开始 符号 ) $55, 而 非 终结 符 B 无 法 推导 出 终结 符 串 。 无 法 到 达 的 以 及 不 
能 推导 出 终结 符 串 的 非 终 结 符 被 称 为 无 用 非 终结 符 串 。 无 用 非 终结 符 (以 及 含有 它们 的 产生 式 ) TAX 
法 中 安全 地 删除 而 不 改变 文法 所 定义 的 语言 。 包含 无 用 非 终结 符 的 文法 被 称 为 非 苘 化 的 .(nonreduced)。 
在 删除 无 用 终结 符 后 ， 该 文法 是 简化 的 (reduced)。G; 是 非 简化 的 。 在 删除 了 B 和 C 之 后 ， 得 到 等 价 文 
法 Go。， 它 是 简化 的 : 


SO A 
Aa 


用 于 检测 无 用 非 终 结 符 的 算法 是 容易 写 出 的 《 见 练习 7)。 许多 语法 分 析 器 生成 器 检查 文法 是 不 是 简 
化 的 。 如 果 不 是 ， 则 文法 中 可 能 含有 错误 (通常 由 文法 规范 中 的 笔 误导 致 )。 
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更 为 严重 的 文法 缺陷 是 ， 有 时 文法 允许 一 个 程序 有 两 棵 或 更 多 棵 不 同 的 分 析 树 (因此 成 为 一 个 非 惟 
结构 )。 例 如 ， 考 虑 下 面 的 文法 ， 它 生成 仅 使 用 中 级 “-” 的 表达 式 : 


«expression» — «expression» — «expression» 
«expression» — ID 


IZ XAH FID-ID-IDAFA RRA IDEO AY PPBE, dne 4-230 4-3 Bos. 

车 文法 对 于 同一 个 终结 符 串 允 许 有 不 同 的 分 析 树 ， 那 么 这 样 的 文法 被 称 为 是 二 义 的 (ambiguous )。 
它们 很 少 使 用 ， 因 为 不 能 保证 对 所 有 输入 都 有 惟一 结构 ( 即 分 析 树 ) ， 因 此 可 能 无 法 获得 由 分 析 树 结构 
所 指导 的 惟一 转换 。 我 们 通常 都 限制 只 使 用 非 二 义 (unambiguous) 文法 以 保证 惟一 结构 。 

自然 地 ， 我 们 希望 有 一 个 算法 能 检查 文法 是 不 是 二 义 的 。 然 而 ， 不 可 能 确定 一 个 给 定 的 CFG 是 不 是 
二 义 的 (Hopcroft and Ullman 1969)， 因 此 不 可 能 构造 出 这 样 一 个 算法 。 幸 运 的 是 ， 对 于 某 些 文法 类 
(包括 那些 可 以 生成 语法 分 析 器 的 文法 类 ) ， 可 以 证 明 它 们 是 非 二 义 的 。 | | 
文法 中 可 能 含有 的 最 严重 的 潜在 缺陷 是 它 产生 “错误 的 语言 "。 这 一 点 非常 难以 察觉 ， 因 为 文法 通 
常 被 当 作 语言 的 定义 。 通 常 ， 通 过 比较 那些 我 们 期 望 是 有 效 的 输入 和 该 文法 的 一 个 语法 分 析 器 所 实际 接 
受 的 输入 ， 来 非 形式 化 地 检测 文法 的 正确 性 。 尽 管 很 少 那样 做 ， 我 们 还 是 可 以 试 着 比较 由 一 对 文法 定义 
的 语言 的 等 价 性 (将 其 中 一 个 作为 标准 )。 对 于 某 些 文法 类 ， 这 种 比较 可 以 完成 ; 对 其 他 类 ， 则 没有 已 
知 的 比较 算法 。 我 们 已 经 认识 到 不 可 能 找到 适用 于 所 有 CFG 的 通用 比较 算法 。 


<expression> 
<expression> 


ion» - «expression» : : 
«express p «expression» - «expression» 


ID | ID 
«expression» — «expression» «expression» — «expression» 
ID iD ID ID 
图 4-2 ID-ID-ID 的 一 棵 分 析 树 图 4-3 ID-ID-ID 的 另 一 棵 分 析 树 


4.3 转换 扩展 BNF 文 法 


正如 我 们 在 第 2 章 所 注意 到 的 ， 扩 展 BNF 文 法 在 表示 许多 程序 设计 语言 结构 时 非常 有 用 ， 因 为 它们 
允许 使 用 方 括 号 指定 的 可 选项 ,而 且 允 许 使 用 大 括号 指定 的 可 选项 列表 结构 。 在 分 析 文 法 和 构造 语法 分 
析 器 时 ， 假 想 一 个 更 简单 的 “标准 形式 ”文法 是 有 益 的 。 我 们 可 以 使 用 图 4-4 的 算法 来 将 扩展 BNF 转 换 
成 标准 形式 。 | 
for (each production P-A- @ [X, ... X & t 
Create a new nonterminal, N. 
Replace production P with P =A — aN f 


Add the productions: N — X; ... X, and N 一 A 
} 


for (each production Q = B — Y (Yi ... Ya? 5) { 
Create a new nonterminal, M. 
Replace production Q with Q = B — yN 6 
Add the productions: M Y, ... Y, M and 
M 人 





图 4-4 用 于 将 扩展 BNF 文 法 转换 成 标准 形式 的 算法 
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44 语法 分 析 器 与 识别 器 


假定 我 们 以 某 种 方式 知道 一 个 文法 是 无 二 义 的 。 给 定 一 个 输入 串 作 为 词法 记号 序列 ， 可 以 询问 : 该 
输入 在 语法 上 是 有 效 的 吗 ? (BD: 它 能 由 该 文法 产生 吗 ? ) 完成 这 项 工作 的 布尔 值 测试 算法 被 称 为 识别 
器 (recognizer). 

我 们 可 能 需要 该 算法 完成 更 多 的 工作 并 询问 : 这 个 输入 有 效 吗 ? 如 果 该 输入 有 效 ， 它 的 结构 (分 析 
BE) 是 什么 ?解答 这 个 更 一 般 问题 的 算法 被 称 为 语法 分 析 器 (parser)。 由 于 我 们 计划 使 用 语言 结构 来 又 
动 编译 器 ， 因 此 我 们 对 于 语法 分 析 器 尤其 感 兴趣 。 | 

有 两 种 通用 的 语法 分 析 方法 。 第 一 种 方法 ， 包 括 在 第 2 章 中 研究 的 递归 下 降 技 术 ， 称 为 自 项 向 下 的 
(top-down)。 如 果 一 个 分 析 器 从 树 的 顶端 (开始 符号 ) 开始 “发 现 ” 词 法 记号 序列 所 对 应 的 分 析 树 ， 并 
随后 以 深度 优先 的 方式 (通过 预测 ) 对 其 进行 扩展 ， 则 它 被 认为 是 自 项 向 下 的 。 A Wiel PRISE OF at 
对 应 分 析 树 的 前 序 遍历 。 自 顶 向 下 的 语法 分 析 技 术 本 质 上 是 预测 性 的 (predictive)， 因 为 它们 总 是 在 实 
际 匹配 开始 之 前 预测 将 要 被 匹配 的 产生 式 。 

很 多 的 语法 分 析 技 术 采 用 了 另 一 种 方法 。 它 们 属于 自 底 向 上 的 (bottom-up) 语法 分 析 器 类 。 正 如 
其 名 字 所 暗示 的 ， 自 底 向 上 的 语法 分 析 器 从 分 析 树 的 底部 〈 树 的 时 结 所 ， 它们 都 是 终结 符号 ) 开始 发 现 
其 结构 ， 并 确定 用 来 生成 叶 结 点 的 产生 式 。 随后 发 现 用 来 生成 叶 结 点 的 直接 父 结 点 的 产生 式 。 这 种 发 现 
将 持续 到 语法 分 析 器 到 达 用 于 扩展 开始 符号 的 产生 式 为 止 。 在 这 时 ， 已 经 确定 了 全 部 的 分 析 树 。 和 上 自 底 加 
上 的 语法 分 析 器 对 应 分 析 树 的 后 序 过 历 。 

为 对 比 自 顶 向 下 和 自 底 向 上 语法 分 析 的 不 同 之 处 ， 考虑 下 面 的 简单 文法 ， 它 生成 一 个 程序 设计 语言 
的 块 结构 框架 : i 

«Program» — begin <Stmts> end $ 


<Stmts> — «Stmt» ; <Stmts> 
<Simts> oA 
”<Stmt> 一 SimpleStmt 
<Stmt> — — begin <Stmts> end 
文法 Gs 
begin SimpleStmt; SimpleStmt end $ 的 自 顶 向 下 的 语法 分 析 如 图 4-5 所 示 。 
«Program» ^ «Program» «Program» «Program» 


JX /AN INS 


begin«Stmts» end $ = begin«Stmts» end $ begin«Stmts» end $ 


个、 ZN 


«Stmt» . «Stmts» «Stmt» . «Stmts» 
SimpleStmt 
«Program» «Program» «Program» 
begin «Stmts- end $ begin «Stmts- end $ bogin«Stmts» end $ 
«Stmt» ; <Stmts> <Stmt> . «Stmts» <Stmt> ; <Stmts> 
SimpleStmt SimpleStmt SimpleStmt 
«Stmt» ; «Stmts» «Stmt» ; «Stmts» <Stmt> ; <Stmts> 
- eae x 
SimpleStmt SimpleStmt 


图 4-5 一 个 自 顶 向 下 的 语法 分 析 过 程 
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目 底 向 上 的 语法 分 析 通 过 发 现 子 树 并 将 它们 链接 成 逐渐 增 大 的 树 来 进行 。 如 图 4-6 所 示 。 


<Stmt> <Stmt> <Stmts> <Stmts> 
SimpleStmt SimpleStmt À 
«Stmt» ; <Stmts> 
SimpleStmt À 
<Stmts> <Program> 
<Stmt> ;  <Stmts> begin<Simts> end $ 
SimpleStmt 
<Stmt> ; <Stmts> <Simt> ; <Stmts> 
SimpleStmt 入 SimpleStmt 
<Stmt> ; «Stmts» 
SimpleStmt 入 


图 4-6 一 个 自 底 向 上 的 语法 分 析 过 程 


由 自 顶 向 下 的 语法 分 析 器 所 预测 的 产生 式 代表 最 左 推导 ; 因此 ， 如 前 面 所 注意 到 的 那样 ， 这 样 的 语 
法 分 析 器 产生 最 左 分 析 。 由 自 底 向 上 的 语法 分 析 器 所 识别 的 产生 式 序列 叫做 最 右 分 析 ; 而 又 如 前 面 所 注 
意 到 的 ， 它 是 代表 最 右 推导 的 产生 式 序列 的 精确 逆序 。 

当 指定 一 种 语法 分 析 技术 时 ， 必 须 声明 它 产生 最 左 分 析 还 是 最 右 分 析 。 已 知 最 好 的 且 广 泛 使 用 的 日 
顶 向 下 和 自 底 向 上 的 语法 分 析 策 略 分 别称 为 LL 和 LR。 这 些 名 字 看 起 来 很 神秘 ， 其 实 它们 只 是 简单 地 对 
如 何 读 取 输 入 以 及 由 此 所 产生 的 语法 分 析 的 类 型 进行 编码 。 因 而 ， 在 这 两 个 名 字 中 ， 第 一 个 L 声 明 词 法 
记号 序列 将 从 左 到 右 地 进行 分 析 。 第 二 个 字母 (LER) 则 声明 会 产生 最 左 还 是 最 右 分 析 。 可 以 进一步 
通过 包含 语法 分 析 器 用 来 做 出 语法 分 析 选 择 的 超前 搜索 符号 〈 即 超出 当前 词法 记号 之 外 的 符号 ) 的 数目 
来 描述 语法 分 析 技 术 的 特征 。 单 个 符号 的 超前 搜索 是 最 常见 的 ， 因 此 我 们 经 常 遇 到 LL(1) 或 LR(1) 语 法 分 
析 器 或 它们 的 近似 变 体 。 


4.5 文法 分 析 算 法 


通常 必须 分 析 文 法 的 属性 来 确定 一 个 文法 是 否 为 语法 分 析 做 好 准备 ; 如 果 是 ， 则 构造 可 用 来 驱动 语 
法 分 析 算 法 的 表格 。 本 节 讨 论 许多 重要 的 分 析 算 法 。 我 们 的 讨论 将 用 来 强化 文法 和 推导 的 基本 概念 。 而 
且 ， 在 构造 语法 分 析 器 时 实际 需要 这 里 所 讨论 的 许多 技术 ， 并 且 它 们 将 作为 实际 的 语法 分 析 器 生成 器 的 
组 件 。 

为 使 我 们 (在 本 章 和 随后 的 两 章 中 ) 的 介绍 更 为 具体 ， 我 们 将 使 用 下 列 简化 的 数据 结构 来 描述 文法 。 
特别 是 ， 我 们 将 忽略 在 产品 级 程序 中 必须 认真 管理 的 动态 内 存 分 配 的 细节 ， 并 简单 地 对 待 每 个 数组 值 元 
素 ， 就 像 它 是 静态 分 配 的 。 

文法 G 由 一 个 记录 (C 语 言 的 struct ) 来 表示 。 它 有 名 为 terminals、 nonterminals, 
productions 和 start_symbol 的 域 。 productions 域 是 由 struct 组 成 的 数组 ， 其 中 每 个 struct 都 








有 三 个 域 1hs 、rhs 和 rhs_1length。 另 外 ， 有 了 时 引用 整个 vocabulary 也 是 有 用 的 ， 它 是 terminals 和 
nonterminals 的 组 侣 。( 在 实践 中 不 会 实际 复制 vocabulary 信 息 。) 


typedef int symbol; /* a symbol in the grammar */ 
/* 


* The symbolic constants used below, NUM TERMINALS, 
* NUM NONTERMINALS, and NUM PRODUCTIONS are 
* determined by the grammar. MAX RHS LENGTH should 


* simply be "big enough." 
*/ 
#define VOCABULARY (NUM NONTERMINALS + NUM TERMINALS) 


typedef struct gram { 
symbol terminals[NUM TERMINALS]; 
symbol nonterminals [NUM NONTERMINALS] ; 
symbol start_symbol; 
int num productions; 
struct prod { 
symbol lhs; 
int rhs length; 
symbol rhs[MAX RHS LENGTH]; 
) productions [NUM . PRODUCTIONS]: 
symbol vocabulary ' [VOCABULARY] ; 
} grammar; 


typedef struct prod production; 


typedef symbol terminal; 
typedef symbol nonterminal; 


最 普通 的 文法 计算 之 一 是 确定 什么 非 终结 符 能 够 推导 出 人。 这 个 信息 非常 重要 ， 因 为 可 以 推导 出 和 的 
韭 终结 符 可 能 在 分 析 过 程 中 消失 ， 因 此 必须 谨慎 地 加 以 处 理 。 确定 一 个 非 终 结 符 是 否 能 够 推导 出 入 并 非 
微不足道 ， 因 为 推导 可 能 需要 多 步 。 例 如 ， 可 能 有 序列 

A = BCD = BC = B =À 

为 了 进行 这 个 计算 ,我们 使 用 一 个 迭代 标记 算法 。 首 先 ， 要 标记 出 能 够 直接 (一步) 推导 出 入 的 非 
终结 符 。 然 后 ， 要 找到 需要 分 析 树 高 为 2 的 非 终结 符 。 我 们 继续 该 过 程 ， 找 出 需要 高 度 不 断 增 长 的 分 析 
树 的 非 终结 符 ， 直 到 没有 更 多 的 非 终结 符 可 以 被 标记 为 能 够 推导 出 人。 完整 的 算法 如 图 4-7 所 不。 

当 构 造 语法 分 析 器 时 ， 通 常 通过 分 析 文 法 来 计算 一 个 集合 Follow(A) ， 其 中 A 是 任意 非 终结 符 。 非 正 
式 地 ，Follow(A) 是 可 以 在 某 个 句 型 中 跟随 A 的 终结 符 的 集合 。 如 果 A 能 够 作为 最 右 符 号 在 一 个 句 型 中 出 
现 ， 则 入 包含 在 Follow(A) 中 (表示 可 能 没有 任何 符号 跟随 A)。 更 精确 地 ， 对 二 A € V. 

Follow(A) = (ae Vi IS =" +> : } lif S=* aA then (A) else 2) 

Follow 集 很 有 用 ， EIRT S MEAE ETF— BHI EMRE P. 也 就 是 说 ， Follow(A)3 
供 的 超前 搜索 字符 能 够 通告 已 识别 出 以 A 为 左边 的 产生 式 。 

用 于 构造 语法 分 析 器 的 另 一 个 常用 集合 是 First(a)。First(Q) 是 所 有 能 够 开始 一 个 可 由 a 推导 出 的 句 
型 的 终结 符号 的 集合 。 如 果 Q 二 "入 ， 则 集合 中 也 包含 。 正 式 地 ， 

First(a) = {ae V, |a—=>*aB}_j(if "A then {A} else 2) 

如 果 o 是 一 个 产生 式 的 右边 ， 则 First(o) 包 含 的 终结 符号 能 够 作为 可 由 oa 推导 出 的 字符 串 的 起 始 符号 。 

我 们 将 用 一 个 数组 first_set[{X] 来 代表 文法 的 First 集 ， 其 中 XxX 是 任意 单独 的 词汇 表 符 号 。 
first_set 中 的 元 素 是 终结 符号 和 入 。 类 似 地 ， 我 们 的 Follow 集 表示 将 是 一 个 数组 follow_set[IR]， 其 
中 A 是 非 终结 符号 。 而 follow_set 中 的 元 素 也 是 终结 符号 和 入 。 

对 任意 (由 非 终结 符 和 终结 符 混合 组 成 的 ) FFR, 无 法 预先 计算 其 First 和 Follow 集 ， 因此 使 用 
算法 compute_first(a)， 它 返回 由 First(a) 所 定义 的 终结 符 集 合 。 如 果 a 恰 好 仅 含有 一 个 符号 ， 
compute first(Q) 将 简单 地 返回 first_setl[aj。 compute first() 和 相关 定义 如 图 4-8 所 示 。 
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typedef short boolean; 
typedef boolean marked vocabulary [VOCABULARY] ; 


/* 
* Mark those vocabulary symbols found to 

* derive À (directly or indirectly). 

*/ 

marked vocabulary mark lambda(const grammar g) 
{ 





static marked vocabulary derives lambda; 
boolean changes; 

/* any changes during last iteration? */ 
boolean rhs derives lambda; 

/* does the RHS derive A? */ 


symbol v; /* à word in the vocabulary */ 
production p; /* a production in the grammar */ 
int i, j: /* loop variables */ 






















for (v = 0; v < VOCABULARY; v++) 
derives lambda[v] = FALSE; 
/* initially, nothing is marked */ 






do ( 
changes = FALSE; 

for (i = 0; i < g.num productions; i++) { 

P = g.productions [i]; 
if (! derives lambda[p.1hs]) { 

if (p.rhs length = 0) ( 

/* derives A directly */ 

changes = derives lambda[p. ibs] = TRUE; 

continue; 


/* does each part of RHS derive A? */ 
rhs_derives_lambda = derives lambda[p.rhs[0]]; 
for (j = 1; j < p.rhs length; j++) 

rhs derives lambda = rhs derives lambda 
&& derives lambda[p.rhs[j]]: 


if (rhs derives lambda) 
changes = TRUE; 
derives lambda[p.lhs] = TRUE; 
) 


) 
) while (changes); 
return derives lambda; 







图 4-7 用 于 确定 一 个 非 终 结 符 是 否 可 推导 出 和 的 算法 


typedef set of terminal or lambda termset; 
termset follow ' set [NUM | NONTERMINAL] ; 

termset first | set [SYMBOL] ; 

marked | vocabulary derives lambda = mark_lambda (g) ; 
/* mark _ lambda (g) as defined above */ 


termset compute f irst(string of symbols alpba) 
{ 

int i, k; 

termset result; 


k = length (alpha); 


if (k == 0) 
result = SET OF( X); 
else { 


result = first set[alpha[0]]:; 
for (i = 1; i <k && A € first set[alpha[i-1]]; i++) 
result = result |) (first set [alpha[i]] - SET OF( A )); 


if (i =k && A c first set[alpha[k - 1]]) 
result = result | ) SET OF( A); 
) 


return result; 


) 


图 4-8 用 于 计算 First(alpha) 的 算法 
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fill first set() 的 定义 见 图 4-9。 它 初始 化 first_set。 该 算法 迭代 执行 ， 首 先 考 虑 单独 的 产 
生 式 ， 然 后 考虑 产生 式 链 。 






























extern grammar g; 


void fill first set (void) 
{ 
nonterminal A; 
terminal a; 
production p: 
boolean 
int i, j; 


for (i = 0; i < NUM_NONTERMINAL; i++) { 
A = g.nonterminals[i]: 
if (derives . lambda [A] ) 
first set [A] = SET OF ( A); 
else 
first set[A] = Ø; 
) 
for (i = 0; i < NUM TERMINAL; i++) ( 
a = g.terminals [i]; 
first_set [a] = SET OF( a ); 
for (j = 0: j < NUM HONTERMINAL; j++) ( 
A= g.nonterminals[j]: 
if (there exists a production A — ap) 
first set[A] = first set[A] |) SET 'OF( a); 
) 
} 
do { 
changes = FALSE; 
for {i = 0; i<g. num productions; i++) { 
P = g.productions [i]; 
first set[p.lhs) = first set(p.i1hs] (|) 
compute first(p.rhs); 
if ( first set changed ) 
changes = TRUE; 


) 
] while (changes): 


图 4-9 用 于 计算 V 的 First 集 的 算法 


£il) first_set() 的 执行 如 下 所 示 〈 其 中 使 用 了 4.1 节 中 的 文法 Go): 











Pam 


E | TCT) Tv iF [+ J 
"(DFmtlop | |M |M O | | | 
(2) Second (nested) loop 1+,A) {V} E 


Far T EA Lo [or [Wi [FIL 89- 
fill follow set ( ) 的 定义 见 图 4- 10。 它 初始 化 follow_set。 该 算法 定位 在 产生 式 中 出 现 的 非 


终结 符 ， 然后 对 跟随 谍 非 终结 符 的 产生 式 后 级 计算 其 First 值 。 如 果 入 在 First 集 中 ， 则 将 产生 式 左边 符号 
的 Follow 集 也 加 入 follow_set 中 。 







void fill follow set (void) 
{ 

nonterminal A, B; 

int i; 


boolean changes; 


for (i = 0; i < NUM_NONTERMINAL; i++) f 
AÀ * g. nonterminals [i]; 


图 4-10 用 于 计算 所 有 非 终 结 符 的 Follow 集 的 算法 
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follow set[A] = Ø; 


} 
follow set[g.start symbol] = SET OF( A ); 
do( 
changes - FALSE; 
for (each production A — aBp) ( 
/* | 
* I.e. for each production and each occurrence 
* of a nonterminal in its right-hand side. 
*/ 
follow set[B] = follow set[B) 4) 
(compute first (B) - SET OF( XA )); 
if (X € compute first (B) ) 
follow set[B] = follow set [B] ( ) follow set [A]; 
if ( follow set[B] changed ) | 
changes - TRUE; 


} 
} while (changes) ; 
} 












图 4-10  (&&) 

作为 示例 ， 我 们 使 用 4.1 节 中 的 文法 Go 来 说 明 fil1_follow_set() 的 执行 : 
EE 
网 





入 
(2) Process Prefix in production 1 | (A) 


可 以 推广 First 和 Follow 集 ， 使 其 包括 长 度 为 k 而 不 是 长 度 为 1 的 字符 串 。Firstx(oQ) 是 可 以 由 ao 推导 出 
的 长 度 为 k 个 符号 的 终结 符 前 缀 集合 。 类 似 地 ，Followk(A) 是 可 以 在 某 些 名 型 中 跟随 A 的 k 个 符号 的 终结 
符 串 集合 。Firstt 和 Follow' 用 于 定义 使 用 k 个 符号 的 超前 搜索 的 语法 分 析 技 术 〈 例 如 LL(k) 和 LR(k) )。 可 
以 推广 用 于 计算 Firsty 和 Follow; 的 算法 ， 来 计算 Firstt 和 Followu。 | 
计算 First 和 Follow 集 的 更 多 示例 

为 了 进一步 说 明 用 于 计算 First 和 Follow 集 的 程序 的 运行 ， 这 里 给 出 两 个 额外 的 示例 。 对 于 下 面 的 文法 : 


OONN 
4 
O 


(3) Third loop, production 2 
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对 于 第 二 个 示例 文法 


o UO b boU 
l 
» 


fill first _ set 的 执行 过 程 如 下 : 


(2) Second (nested) loop 
(3) Third loop, production 1 


fill follow set 的 执行 说 明 如 下 : 
一 














ee | 
(1) Initialization {A} 

Q2) Process A in production 1 | IA] 
(3) Process B in production ! | {A} 


um] 


练习 


8. 
9. 


.使 用 4.3 节 的 算法 ,将 Micro 的 扩展 CFG 定 义 (第 2 童 的 图 2-4) 转换 为 标准 形式 的 CFG。 
， 对 定义 Micro 的 CFG (扩展 形式 或 者 标准 形式 ) 进行 扩展 ， 使 之 包含 相等 运算 符 “=” 以 及 寡 运 算 符 


“*y”。 相 等 运算 应 当 比 加 和 了 减 的 优先 级 低 ， 而 笑 运 算 应 当 比 加 和 减 的 优先 级 高 。 即 ，A+B**2 = 
C+D 应 当 等 价 于 (A+(B**2)) = (C+D)。 而 且 ， 知 运算 应 当 从 右边 起 进行 分 组 (因此 A**B**C 等 价 于 
A**(B**C))， 而 相等 运算 则 根本 不 应 当 分 组 (A B = C 是 非法 的 )。 确 保 你 的 文法 是 无 二 义 的 。 


， 使 用 fil1 first set() 和 fill follow_set() 来 计算 定义 Micro 的 文法 的 first_set 和 


follow set. 
形 如 A > Aa 的 产生 式 被 称 为 左 递 归 的 (left-recursive)。 类 似 地 ， 形 如 B 一 BB 的 产生 式 被 称 为 右 递 
归 的 (right-recursive )。 证 明 : 任意 同时 包含 相同 左边 符号 的 左 递归 和 右 递 归 产 生 式 的 文法 必定 是 二 


， 假定 希 望 从 n 个 选项 的 集合 {O,，… ，O} 中 生成 可 选项 列表 。 该 列表 能 够 以 任意 次 序 包 含 可 选项 的 任 


音 子 集 ， 但 可 选项 不 能 重复 。 写 出 一 个 CFG， 生 成 所 期 望 形 式 的 列表 。 
你 的 文法 大 小 和 可 能 的 选择 数量 n 之 间 有 什么 关系 ? 
如 果 进 一 步 要 求 选项 以 特殊 的 次 序 出 现 ( 例 如 ， 仅 当 i<j 时 OO; 可 以 出 现在 Oj 之前)， 你 的 文法 会 更 加 


”简化 还 是 会 更 加 复杂 ? | 
， 通 过 写 出 将 正则 文法 转换 为 有 限 自动 机 以 及 进行 相反 转换 的 算法 ,证 明正 则 文法 和 有 限 自动 机 有 同 


等 的 定义 能 力 。 


”可 通过 删除 无 用 非 终结 符 和 含有 无 用 非 终 结 符 的 产生 式 来 化 简 CFG。 我 们 可 以 通过 首先 删除 从 开始 


符号 不 可 达 的 非 终 结 符 ， 再 删除 不 推导 出 任何 终结 符 串 的 非 终结 符 ， 来 化 简 一 个 文法 。 另 外 ， 也 可 
以 首先 删除 不 推导 出 任何 终结 符 串 的 非 终结 符 ， 再 删除 不 可 达 非 终结 符 。 这 两 种 方法 等 价 么 ”如 果 
不 ， 哪 一 种 方法 的 顺序 比较 好 ? 

简要 证 明 对 于 所 有 的 词汇 表 符 号 ，fi1l1l first _set( ) 都 能 正确 地 计算 f irst_set 的 值 。 

令 G 为 任意 CFG， 并 假定 入 儿 L(G)。 证 明 : G 能 够 被 转换 为 不 使 用 入 产生 式 的 等 价 CFG。 


10， 单 位 产生 式 (unit production) 是 形 如 A — B 的 产生 式 。 其 中 B 是 单个 非 终 结 符 。 证 明 : 包含 单位 产 


生 式 的 任意 CFG 都 能 被 转换 为 不 使 用 单位 产生 式 的 等 价 CFG。 
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. 某 些 CFG 生 成 无 限 大 的 语言 ， 其 他 的 CFG 则 产生 有 限 大 的 语言 。 写 出 一 个 算法 ， 测 试 一 个 给 定 的 


CFG 是 否 产生 无 限 的 语言 。 
提示 : 使 用 练习 9 和 练习 10 的 结果 来 简化 分 析 。 


， 令 G 为 不 含 和 产生 式 的 无 二 义 CFG。 如 果 x ELG), WA: 推导 x 所 需 步 数 和 x 的 长 度 呈 线性 关系 。 
.编写 一 个 程序 ， 使 用 4.3 节 的 算法 ， 将 扩展 CFG 转 换 为 等 价 的 标准 形式 的 CFG。 








第 5 章 LL(1) 文 法 及 分 析 器 


在 第 2 童 中 ， 我 们 学 习 了 递归 下 降 分 析 的 基本 知识 。 现 在 来 研究 LL(1) 文 法 (LL(1)grammer), 这 是 — 


一 类 适合 递归 下 降 分 析 的 CFG。 我 们 还 同时 定义 LL(1) 分 析 器 (LL(1) parser)， 它 使 用 LL(1) 分 析 表 
(LL(1)parse table) 而 不 是 递归 过 程 来 控制 分 析 。 | 

正如 我 们 已 经 看 到 的 ，CFG 是 一 种 非常 有 用 的 定义 机 制 (definitional mechanism). 。 它 们 也 经 常用 
来 自动 生成 语法 分 析 器 。 这 里 的 思想 是 使 用 一 个 程序 一 一 语法 分 析 器 生成 器 (parser generator), ULEX 
文法 类 作为 输入 ， 产 生 一 个 语法 分 析 器 作为 输出 ， 这 个 语法 分 析 器 将 正确 分 析 由 该 文法 所 定义 的 语言 。 
这 个 概念 与 编译 器 的 概念 类 似 一 一 高 级 定义 ( 源 程序 或 文法 ) 被 翻译 成 可 执行 的 形式 (目标 程序 或 语法 
分 析 器 )。 这 种 方法 使 得 构造 一 个 语法 分 析 器 成 为 构造 编译 器 过 程 中 最 容易 的 一 部 分 工作 一 一 写 出 一 个 
文法 ， 然 后 将 它 输 入 到 自动 的 语法 分 析 器 生成 器 中 。 修 改 语法 分 析 器 (例如 、 向 语言 中 添加 新 的 结构 ) 
也 同样 很 简单 。 新 的 语法 分 析 器 由 更 新 过 的 文法 创建 。 | 


5.1 LL(1)PredictiR Sr 


正如 我 们 在 第 2 章 中 所 学 习 的 ， 递 归 下 降 分 析 器 使 用 分 析 过 程 来 丐 配 由 非 终 结 符 生 成 的 词法 记号 。 
在 构造 分 析 过 程 中 的 主要 问题 是 确定 匹配 哪 一 个 产生 式 。 这 个 决定 可 以 通过 定义 一 个 Predict 函 数 进 行 形 
式 化 。 该 函数 检查 超前 搜索 符号 ， 来 推断 必须 使 用 哪个 产生 式 来 扩展 每 个 非 终结 符 。 


XIBPUESXIA >X … Xm m > 0。 需 要 计算 可 能 指示 匹配 该 产生 式 的 可 能 的 超前 搜索 记号 集 。 该 集 


合 无 疑 是 那些 可 以 由 X; … Xn 产 生 的 终结 符 。 由 于 仅 超 前 搜索 一 个 词法 记号 ， 因 此 我 们 需要 可 能 产生 的 
首 记 号 集 ( 即 最 左 记号 集 )。 如 我 们 在 第 4 章 中 所 学 到 的 ， 该 记号 集 是 First(X1 … Xm)。 

先 考虑 最 堪 符号 Xi。 如 果 X;, 是 终结 符 ， 则 First(X，… Xm) = X1。 如 果 X1 是 非 终 结 符 ， 则 计算 每 个 对 
REX ,的 产生 式 右 部 的 First 集 。 当 Xi 能 生成 时 怎么 办 ?那样 的 话 ，X 实 际 上 能 够 被 抹 去 ， 而 First(X， 
o Xi 依赖 于 Xa。 特别 地 ， 如 果 Xz 是 终结 符 ， 则 它 将 被 包含 于 First(X! … Xm) 中 。 如 果 X? 是 非 终 结 符 ， 
则 计算 每 个 对 应 于 Xs 的 产生 式 右 部 的 First 集 。 类 似 地 ， 如 果 X1 和 Xs 都 能 产生 入 ， 则 考虑 X3， 依 次 类 推 。 
如 果 产生 式 右 部 的 所 有 符号 都 能 产生 入 该 怎么 办 ? 那样 的 话 ， 超 前 搜索 符号 需要 由 跟随 左 部 符号 (在 我 
们 的 例子 中 是 A) 的 那些 终结 符 确定 。 为 此 可 以 使 用 Follow(A) ， 它 是 在 某 些 合法 推导 中 可 以 跟随 A 的 词 
法 记号 集 。 

现在 定义 导致 预测 产生 式 A 一 X1 … Xn 的 超前 搜索 记号 集 。 该 集合 称 为 Predict: 

Predict(A 一 X `’ Xm) = 
if A eFirst(X, ^-^ Xm) 

(First(X, - + * Xm) -À) v ) Follow(A) 


else 
First(X, - ^: Xm) 


即 ， 任 意 词法 记号 (可 以 是 由 产生 式 右 部 产生 的 首 符号 ) 将 预测 该 产生 式 。 进一步， 如 果 产生 式 右 部 整 
个 能 够 产生 XIN € First(X, … Xm)]， 则 能 够 紧 跟 在 产生 式 左 部 非 终结 符 后 的 词法 记号 也 将 预测 该 产生 式 。 
因为 和 不 是 终结 符号 ， 所 以 它 不 能 作为 超前 搜索 符号 ， 且 因此 不 包含 于 任何 Predict 集 合 中 。 

还 必须 处 理 最 后 一 个 问题 。 如 果 对 于 两 个 产生 式 ，A X … Xm 和 A 一 YI Yos 存在 某 个 词法 记 
W, KPEE Predici(A — X, = X) Bt € Predict(A — Y, = YD) ， 该 如 何 处 理 ? RD, ARRERA 
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号 预测 多 个 产生 式 该 怎么 办 ?该 冲突 将 会 把 这 些 文法 排除 在 LL(1) 文 法 类 之 外 。LL(1) 包 含 那些 对 共享 公 
共 左 部 的 产生 式 拥 有 不 相交 的 预测 集合 的 文法 。 从 经 验 得 知 ， 通 常 有 可 能 为 一 个 程序 设计 语言 构造 
LL(1) 文 法 。 然 而 ， 并 非 所 有 的 文法 都 是 LL(1) 文 法 。 许 多 非 LL(1) 的 文法 属于 其 他 (更 复杂 的 ) 文法 类 ， 
它们 的 语法 分 析 器 也 能 够 被 自动 地 构造 。 | 

为 了 确认 我 们 已 经 理解 了 刚刚 介绍 的 概念 ， 看 一 下 怎样 为 Micro 的 产生 式 计算 Predict 函 数 。 

图 5-1 给 出 使 用 4.3 节 的 算法 〈 见 图 4-4) 将 第 2 章 的 Micro 文 法 转换 成 的 标准 形式 。 $ ”用 来 表示 文件 
结束 记号 。 


<program> — begin <statement list> end 
«Statement list> — — <statement> «statement tail» 
«statement tail» — «statement» «statement tail 
«statement tail> — — A 

«statement? — ID := «expression» ; 
«statement» — read ( «id list» ) ; 
«statement» — write ( «expr list» ) ; 

«id list» — ID «id tail» 

«id tail» — , ID «id tail» 

«id tail» 一 人 

«expr list» — «expression» «expr tail» 
<expr tail — , «expression» «expr tail» 
«expr tail» >À 

<expression> — «primary» «primary tail> 
«primary tail» 一 «add op» «primary» «primary tail> 
«primary tail» >À 

<primary> — ( «expression» ) 

«primary» — ID 

«primary» — INTLIT 

«add op» 一 十 

<add op> 一 一 

<system goal> — <program> $ 


COON DM hOAN = 





图 $-1 标准 形式 的 Micro 文 法 


图 5-2 和 图 5-3 给 出 Micro 中 非 终结 符 的 First 和 Follow 集 ， 它 使 用 4.5 节 的 技术 ( 见 图 4-8 ~ 图 4-10) it 
算得 到 。 对 于 像 Micro 一 样 小 的 文法 ， 这 些 集合 可 以 简单 地 通过 手 算得 到 。 对 于 大 的 文法 ， 使 用 自动 工 
具 计算 会 较为 安全 。(5.8 节 中 的 LLGen 工 具有 一 个 选项 可 令 其 列 出 First 和 Follow 集 。) 
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图 5-2 Micro 的 First 集 





下 一 步 ， 通 过 赫 换 First 和 Follow 集 并 简化 表达 式 来 计算 Predict 集 ， 如 图 5-4 所 未 。 
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图 5-3 MicroffjFollow 
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图 5-4 为 Micro 计 算 Predict 集 


5.2 LL(1) 分 析 表 


包含 在 Predict 函 数 中 的 语法 分 析 信 息 可 以 被 方便 地 用 LL(1) 分 析 表 来 表示 。 该 表 记 为 T， 其 形式 为 : 


T:VnxV > PU {Error} 


其 中 ，P 是 所 有 产生 式 的 集合 。 如 果 A 是 待 匹配 的 非 终结 符 ， 而 t 是 超前 搜索 记号 ， WI T[A][t]H&7n TR MED 
个 产生 式 。 如 果 没 有 合适 的 产生 式 ， 则 T[A] 岂 产生 一 个 Error 值 ， 指 示 语 法 错误 。 T 定 义 如 下 : 


TIAJIt] = Error otherwise 


文法 G 是 LL(1) 的 ， 当 且 仅 当 T 中 的 所 有 条 目 包含 惟 一 的 产生 式 或 错误 标志 。 换 一 种 说 法 ， 如 果 G 是 
LL() 的 ， 则 对 任意 非 终结 符 A 和 任意 超前 搜索 符号 t， 不 允许 存在 t E Predict(A — a) 和 t € Predict(A — 


D. 其 中 A 一 a 和 A 一 了 是 不 同 的 产生 式 。 


rm 
ee 
gen 


2 


[ET TFT 
E caime  |Fessaement- (ID read, write | 
(D. read. wrt) 
d resi Ay y Folwcsmomen] | Fotowcsistonen ibys [tend 
一 sp a — 
— s |Fmswead(cGis-)]- — Feswea- | rem) — — 
— Vmemabakis 0. — [Wwe — — [i —— — 
e Feet — — — E 
NI p Urea]. [foeWGmi- PO 
i -mstepeden cepta]. — fremremon]- | 00 NTT 0 
First(, «expression» <expr tail>)= —- Fs CT |J 
Li Heer recep) Fowl O — 
eaa iray mij. | Fisician — [IG WIUTU — 
Lit | Fesà)-3) C) Forma ibi» 
First( ( «expression» ) ) = Fito SC | ' 
—Gm Fee | lo 
一 Fat TT 
EC | lm LÀ — 
| | 
rr em — 
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现在 容易 明日 为 什么 LL(1) 文 法 这 么 适 于 自 顶 向 下 的 语法 分 析 。 如 果 一 个 文法 是 LL(1) 的 ， 则 保证 对 
ics BRL HT oh Co 都 有 一 个 惟一 的 预测 ， 或 一 个 错误 标志 。 所 有 预测 都 是 惟 
因此 容易 把 非 终 结 符 替 换 为 正确 的 产生 式 右 部 。 这 就 允许 我 们 从 开始 符号 开始 ， 同 下 处 理 作 为 树 
的 叶 结 点 的 输入 符号 ， 来 为 任意 合法 输入 字符 串 构 造 分 析 树 。 
| 作为 示例 ， 将 前 面 计算 的 Micro 的 Predict 集 转换 为 图 5-5 中 的 LL(1) 分 析 表 。 该 表 可 被 用 来 构造 组 成 
Micro 的 递归 下 降 分 析 器 的 语法 分 析 过 程 ， 或 者 ， 该 表 可 被 直接 用 来 驱动 一 个 LL(1) 分 析 器 。 在 图 5-5 中 
整数 条 目 是 产生 式 编 号 ;， 空白 是 错误 条 是。 | 





图 5-5 Micro 的 LL(1) 分 析 表 


5.3” 从 LL(1) 分 析 表 构造 递归 下 降 分 析 兹 


当 构 造 语法 分 析 器 时 ， 由 文法 来 计算 LL(1) 分 析 表 。 在 LL(1) 分 析 表 中 记录 的 语法 分 析 决 策 可 以 被 硬 
编码 到 由 递归 下 降 分 析 器 所 使 用 的 语法 分 析 过 程 中 。 回 忆 第 2 章 中 语法 分 析 过 程 的 形式 为 


void non term(void) 
( 
token tok = next token(); 
switch (tok) ( 
case TERMINAL LIST: 
parsing . actions (); 
break; 


default: 
syntax error (tok) ; 
break; 
} 
} 


non term( ) 是 该 语法 分 析 过 程 所 处 理 的 非 终结 符 的 名 字 。next _token() 返 回 超前 搜索 符号 。 
TERMINAL LIST 表 示 终 结 符号 列表 。parsing_actions ( ) 表 示 语 法 分 析 动 作 序 列 : 调用 语法 分 析 过 程 
来 匹配 非 终 结 符 ， 调 用 match() 来 匹配 终结 符 。 如 果 next_token( ) AMMA ARH ER, 则 调用 
syntax error(). 

更 实际 一 些 ， 图 5-6 的 语法 分 析 过 程 匹配 Micro 中 的 <statement>: 


void statement (void) 


{ 
token tok; 


tok = next_token(); 
switch (tok) { 





”图 5-6 <statement> 的 语法 分 析 过 程 
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case ID: 
match(ID); match(ASSIGNOP); expression(): 
match (SEMICOLON) ; 
break; 


case READ: 
match (READ); match (LPAREN); id list (); 
match (RPAREN); match (SEMICOLON) ; 
break; 


case WRITE: 
match (WRITE); match(LPAREN); expr_list (); 
match (RPAREN) ; match (SEMICOLON) ; 
break; | 


default: 
syntax_error (tok) ; 
break; 
} 
} 





图 5-6 (Be) 


我 们 将 考虑 一 个 算法 ， 它 从 文法 的 LL(1) 分 析 表 中 日 动 地 构造 类 似 图 5-6 的 语法 分 析 过 程 。 所 有 过 程 
都 将 是 这 种 形式 。TERMINAL LIST 和 parsing_actions() 的 值 将 会 从 LL(1) 分 析 表 进行 实例 化 。 

现在 用 文法 中 符号 的 名 字 (names ) 来 扩充 用 以 描述 第 4 章 中 文法 的 数据 结构 。 一 个 文法 
(grammar) 现在 是 : 

typedef int symbol; /* a symbol in the grammar */ 

define VOCABULARY (NUM NONTERMINALS + NUM TERMINALS) 


typedef struct gram { 
symbol terminals [NUM TERMINALS]: 
symbol nonterminals (NUM NONTERMINALS]; 
symbol start symbol; 
int num productions; 
struct prod { 
symbol lbs; 
int rhs length; 
symbol rhs[MAX RHS LENGTH]; 
) productions [NUM PRODUCTIONS); 
symbol vocabulary [VOCABULARY] ; 
char *names [VOCABULARY] ; 
} grammar; 


typedef struct prod production; 


typedef symbol terminal; 
typedef symbol nonterminal ; 


假定 我 们 拥有 和 希 望 在 一 个 语法 分 析 过 程 中 进行 匹配 的 文法 符号 数组 。 例 程 gen_actions() ( 见 图 5-7) 
取 文 法 符号 作为 参数 ， 并 生成 在 递归 下 降 分 析 兹 中 匹配 它们 所 必需 的 动作 (调用 语法 分 析 过 程 以 及 
match( ) 函数 )。gen_actions( ) 假定 函数 make_id( ) 取 文 法 符号 名 字 作 为 参数 ， 并 将 它 转换 为 有 效 的 程序 
标识 符 。 这 可 能 包括 剔除 像 “<” 和 “> 这 样 的 非法 字符 ， 删 除 内 婴 的 空 日 ， 对 字符 进行 重 命名 ， 等 等 。 
(jin, make id("«statement list>" ) 返 回 "statementlist", 而 make_id(":=") 返 回 "COLONEQUAL 。 

make_parsing_proc() 在 图 5-8 中 定义 。 该 算法 取 一 个 非 终 结 符 和 LL(1) 分 析 表 作为 参数 ， 为 该 终 
结 符 生 成 完整 的 语法 分 析 过 程 。 该 例 程 假定 有 Fat BR: prods()fürhs(). prods(A) 返回 以 A 作 为 左 
部 的 产生 式 集 合 。 rhs(P) 则 返回 产生 式 P 右 部 的 符号 串 。 

一 个 很 好 的 练习 是 : 给 定 <statement> 和 图 5-5 所 示 的 LL(1) 分 析 表 作为 参数 ， 来 验证 
make_parsing_proc() 将 生成 图 5-6 所 示 的 语法 分 析 过 程 ， 其 中 一 些 标识 符 可 能 被 重新 命名 。 
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extern char *make id(char *); 


void gen actions(symbol x[], int x length); 
{ 

int i; 

char *id; 


/* 
* Generate recursive descent 
* actions needed to match x. 
*/ 
if (x length == 0) 
printf ("; /* null */\n"); 
else { 
for (i = 0; i < x length; i++) { 
id = make_id(g.names[x{i]]); 
if (is terminal (x[ij)) 
printf ("\t\tmatch ($s) ;\n", id); 
eise 
printf ("\t\t%s();\n", id); ' 





图 5-7 生成 递归 下 降 动 作 的 算法 


void make parsing proc (const nonterminal A, 
const litable T) 


{ 

/* 
* Generate recursive descent 
* parsing procedure for A. 
*/ 

extern grammar g; 

production p; 

terminal x; 

int i, j; 


printf ("void $s(void)WXn(Xn", make id(g.names[A])); 
printf ("\ttoken tok = next_token()\n"); 
printf ("\tswitch (tok) {\n"); 


/* for each production where A is the LHS */ 
for (i = 0; i < g.num_productions; i++) { 
if (g.productionsfi].lhs != A) 
continue; 
P = g.productions [i]; 
/* for each terminal in the grammar */ 
for (j = 0; j < NUM TERMINALS; j++) 1 
x = g.terminals[jl: 
if (T[A][x] == i) /* this production */ 
printf ("\tcase ts:\n", make_id(g.names([x])); 
) | 
gen actions (p.rhs, p.rhs length); 
printf ("\t\tbreak; Nn") ; 


} 
printf ("\tdefault :\n") ; 


printf ("\t\tsyntax_error (tok) ;\n"); 
printf ("\tbreak; \n\t}\n}\n") ; 


图 5-8 生成 语法 分 析 过 程 的 算法 


很 容易 扩展 make_parsing proc() ， 使 其 对 某 些 特殊 的 情形 ， 生 成 更 高 效 的 语法 分 析 过 程 。 最 重要 
的 是 ， 如 果 一 个 非 终 结 符 仅 能 以 一 种 方式 被 扩展 ， 则 不 必 生 成 任何 条 件 逻 辑 ， 语 法 分 析 过 程 的 过 程 体 就 是 
简单 的 gen actions(rhs(p))， 其 中 p 是 要 被 匹配 的 产生 式 。 该 优化 大 量 用 在 第 2 章 的 语法 分 析 过 程 中 。 
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9.4 LL(1D) 分 析 器 驱动 程序 


38 35 FAD = 语义 分 析 和 代码 生成 的 代码 来 扩充 递归 下 降 分 析 过 程 。 因此 ， 语法 分 析 过 程 一 旦 被 建立 
并 集成 到 编译 器 中 ， 就 不 容易 更 改 。 东芝 要 更 新 表示 程序 设计 Fa TRA PL TP SCE 
所 以 ， 和 希望 有 办 法 更 新 语法 分 析 器 而 无 需 不 必要 地 影响 其 他 的 编译 器 组 件 。 
除了 使 用 LL(1) 分 析 表 来 构造 语法 分 析 过 程 外 ， 还 可 能 使 用 该 表 与 驱动 程序 一 起 组 成 LL(1) 分 析 器 
(LL(1) parser)。LL(1) 分 析 表 只 在 构造 分 析 器 时 被 计算 一 次 。 利 用 这 些 表 控制 语法 分 析 的 LL(1) 驱 动 程序 
认为 这 些 表 是 只 读 的 。 因 为 同样 的 驱动 程序 可 以 和 所 有 LL(t) 分 析 表 一 起 使 用 ， 所 以 改变 文法 并 构造 新 
的 语法 分 析 器 将 很 容易 一 一 计算 新 的 LL(1) 分 析 表 并 以 之 替换 旧 表 。 进 一 步 ， 由 于 LL(1) 驱 动 程序 使 用 栈 
而 不 是 递归 过 程 调用 来 存储 尚未 被 匹配 的 符号 ， 因 此 ， 可 以 期 望 它 所 生成 的 语法 分 析 器 比 相应 的 递归 下 [119 
降 分 析 器 更 小 且 更 快 。 | 120 
图 5-9 所 示 的 LL(D 驱 动 程序 非常 简单 。 它 把 待 匹 配 或 待 扩展 的 符号 压 人 栈 中 。 栈 中 的 终结 符号 必须 
匹配 输入 符号 ; 非 终结 符号 则 通过 使 用 LL(1) 分 析 表 被 扩展 。 


void lldriver (void) 

{ 
/* Push the Start Symbol onto an empty stack. */ 
Push (s); 


while (! stack empty() ) I 
/* Let X be the top stack symbol; */ 
/* let a be the current input token. */ 


if (is nonterminal (X) 
té T[X][a] == X> Y - - - Y) í 
/* Expand non-terminal */ 
pop (1); 
Push Y, Yei, °° - Y, onto the stack; 

) eise if (X zx a) ( /* X in terminals */ 
pop (1); /* Match of X worked */ 
scanner(& a); /* Get next token */ 

- } else 
/* Process syntax error. af 





图 5-9 LL(1) 分 析 器 驱动 程序 


在 此 ， 重 复 2.5.5 节 的 递归 下 降 分 析 示例 ， 这 一 次 使 用 LL(1) 分 析 表 和 驱动 程序 。 图 5-10 显 示 出 在 给 
定 输入 begin A := BB-314 + A; end $ 了 时 由 LL(1D) 分 析 器 所 执行 的 步 又 。 


5.5 LL(1) 动 作 符号 


回忆 第 2 章 ， 形 如 #Name 的 动作 符号 被 添加 到 文法 中 以 标记 需要 语义 动作 的 地 方 。 动作 符号 并 非 文 
法 的 实际 组 成 部 分 ， 并 在 计算 LL(D 分 析 表 时 被 忽略 。 在 分 析 中 ， 产 生 式 中 所 出 现 的 动作 符号 用 来 执行 
相应 的 语义 动作 。 

在 递归 下 降 分 析 器 的 情形 中 ， 我 们 将 扩展 5.3 节 (图 5-7) 的 gen_ actions() 例 程 来 包含 动作 符 
号 而 不 仅仅 是 文法 符号 。 当 处 理 动 作 符号 时 ， 它 将 被 转换 为 对 相应 语义 例 程 的 调用 。 例 如 ， 调 用 [121] 
gen actions("ID := «expression» #gen assign ;") 将 会 生成 : 

match (ID) ; 

match (COLONEQUAL) ; 

expression (); 


gen assign(): 
match (SEMICOLON) ; 
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语义 例 程 调用 不 传递 显 式 参数 。 必 要 的 参数 通过 语义 栈 (semantic stack) 来 传送 。 语 义 栈 的 使 用 将 在 第 
7 章 中 详细 讲述 。 需 要 强调 ,语义 栈 和 分 析 栈 是 完全 不 同 的 数据 结构 。 在 递归 下 降 分 析 器 中 ， 分 析 栈 
“隐藏 ”于 运行 中 的 编译 器 的 过 程 调用 栈 中 。 通 过 让 每 个 分 析 例 程 返 回 一 个 语义 记录 ， 语 义 栈 也 可 以 这 


样 隐藏 。 
Remaining Input 
begin A:-BB-3144A ; end $ 


Predict 22 


Parse Stack 


«system goal» 







































Predict 1 begin A:=BB-314+A ;end $ | «program» $ 
Match begin A:-BB-314«A ;end $ | begin «statement list> end $ 
Predict 2 A:=BB-314+A ; end $ «statement list> end $ 








Predict 5 
Match 
Match 
Predict 14 
Predict 18 
Match 


A:sBB-3144A ; end $ 
A:-BB-3144A ; end $ 
:-BB-314«A ; end $ 
BB-314+A ; end $ 
BB-314+A ; end $ 
BB-3144A ;end$ 


«statement» «statement tail> end $ 

ID := «expression» ; «statement tail» end $ 

:= «expression» ; «statement tail» end $ 
«expression» ; «statement tail» end $ 

«primary» «primary tail» ; «statement tail» end $ 
ID «primary tail» ; «statement tail» end $ 



























































Predict 15 -314+A ; end $ «primary tail» ; «statement tail» end $ 

Predict 21 ~314+A ; end $ «add op» «primary» «primary tail» ; «statement tail- end $ 
Match -314+A ; end $ - «primary» «primary tail» ; «statement tail» end $ 

Predict 19 314+A ; end $ «primary» «primary tail» ; «statement tail> end $ 

Match 314+A ; end $ intLiteral «primary tail» ; «statement tail» end $ 

Predict 15 «A ; end $ «primary tail» ; «statement tail» end $ 

Predict 20 +A ; end $ «add op» «primary» «primary tail» ; «statement tail» end $ 





Match 

Predict 18 
Match 
Predict 16 


+ «primary» «primary tail» ; «statement tail» end $ 





«primary» «primary tail» ; «statement tail» end $ 
ID «primary tail» ; «statement tail» end $ 
«primary tail» ; «statement tail» end $ 




















Match : «statement tail» end $ 
Predict 4 «statement tail» end $ 
Match end $ 





Match $ 


图 5-10 begin A: = BB - 314 + A; end $ 的 LL(1) 分 析 


动作 符号 使 得 在 递归 下 降 分 析 器 中 包含 语义 动作 非常 容易 。 进 一 步 ， 由 于 语义 动作 是 从 分 析 过 程 提 
取出 来 的 ， 因 此 ， 为 一 个 已 更 新 的 文法 生成 新 的 分 析 过 程 就 是 直截了当 的 。 

对 于 LL(1) 分 析 器 ， 当 预测 到 一 个 特定 的 产生 式 时 ， 出 现在 其 中 的 动作 符号 被 压 人 分 析 生 ”， 当 动 
作 符号 出 现在 分 析 栈 的 顶部 时 ， 它 被 弹出 ， 且 相应 的 语义 例 程 被 调用 。 因 此 ， 图 5- 9 的 LL(1) 驱 动 程序 被 
扩展 ， 如 图 $-11 所 示 。 


56 文法 的 LL(1) 化 


对 于 缺乏 经 验 的 编译 器 作者 来 说 ， 构 造 LL() 文 法 并 不 总 是 那么 容易 。 问题 是 LL(1) 对 于 每 个 非 终结 
符 和 超前 搜索 符号 的 组 合 都 要 求 惟一 的 预测 ， 而 写 出 违反 惟一 预测 要 求 的 产生 式 并 不 困难 。 
幸运 的 是 ， 大 多 数 LL(D 预 测 冲 突 都 能 够 被 归 为 两 类 : 公共 前 缓 (common prefix) 和 左 递 归 (left 
recursion)。 消 除 公共 前 级 和 左 递 归 的 简单 文法 变换 已 为 人 知 ， 而 这 些 变换 允许 我 们 将 大 多 数 文法 改写 
[123] 成 有 效 的 LL(1) 形 式 。 
在 第 一 类 冲突 中 ， ————— 09 例如 ， 可 能 有 


«stmt» if <expr> then «stmt list» end if ; 
«stmt» — if «expr» then «stmt list» else «stmt list» end if ; 
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JE 3 FE ATR HUP AE Se Be PE, AG First ee CE ERU. CRAB ZS SR a RAR AE A) 。 
由 公共 前 级 导致 的 预测 冲突 的 解决 办 法 是 简单 的 提取 变换 ， 如 图 5-12 所 示 。 


void lidriver (void) 

{ 
/* Push the Start Symbol onto an empty stack */ 
push (8); ; 


while (! stack empty() ) { 
/* Let X be the top stack symbol; */ 
/* let a be the current input token */ 


if (is nonterminal(X) 
&& T{X] [a] == X > Y, - - - Ym í 
/* Expand nonterminal */ 
Replace X with Y, - : - Ym on the stack; 
) eise if (is terminal (X) GG X ax a) ( 
pop (1); /* Match of X worked */ 
scanner(& a);  /* Get next token */ 
} else if (is action symbol(X)) { 
pop (1); | 
Call Semantic Routine corresponding to X; 
) else 
| /* Process syntax error */ 





图 5-11 处 理 动作 符号 的 LL(1) 驱 动 程序 


void factor (grammar *G) 


while (G has 2 or more productions with the same 
LHS and a common prefix) { 
Let S = {A > 0p, . . ., A- at} 
be the set of productions with the same 
left-hand side, A, and a common prefix, © 


, Create a new nonterminal, N; 


Replace S with the production set | 
SET F(A > GON, NR 5 p, ..,No9 60) 





图 5-12 提取 公共 前 级 的 算法 
使 用 If-then-else 的 例子 ，factor() 产 生 | 


«stmt» — it «expr» then «stmt list» «if suffix» 
«if suffix> — endif; 
«if suffix» — else «stmt list» end it ; 


在 第 二 类 冲突 中 ， 如 果 一 个 产生 式 的 左 部 符号 也 是 它 右 部 的 第 一 个 符号 ， 则 该 产生 式 是 左 递 归 的 。 
例如 ， 产生 式 E 一 E+T 是 左 递归 产生 式 。 如 果 一 个 非 终结 符 是 某 个 左 递 归 产 生 式 的 左 部 符号 ， 则 该 非 终 
结 符 是 左 递 归 的 。 包 含 左 递归 产生 式 的 文法 不 可 能 是 LLUD 的 。 为 明白 其 原因 ， 假 定 某 个 超前 搜索 符号 t 
导致 预测 某 个 左 递归 产生 式 A 一 AB。 在 该 预测 之 后 ， A 再 次 成 为 栈 顶 符号 ， 因 而 将 会 永远 预测 相同 的 产 

在 图 5-13 中 给 出 算法 remove_left recursion(), 它 从 一 个 已 经 提取 公共 前 绥 的 文法 中 删除 左 递归 。 

为 理解 remove .left_recursion( ) 如 何 操作 ， 观 察 在 提取 公共 前 缀 后 ， 共享 左 部 符号 的 产生 式 集 
合 中 最 多 只 能 有 一 个 产生 式 是 左 递 归 的 。 假 定 是 A > Aa. 可 以 应 用 左 递归 任意 多 次 ， 但 最 终 必 须 使 用 
其 他 产生 式 中 的 一 个 ， 否 则 非 终 结 符 A 将 永远 不 会 被 消去 。 产 生 式 A > NT 生成 N 后 面 跟着 零 个 或 多 个 a。 








E A 


void remove_left_recursion (grammar *G) 
{ 
while (G contains a left-recursive nonterminal) { 
Let S = {A - Ax, A> D, . . . , A C) 
be the set of productions with the same 
left-hand side, A, where A is 
left-recursive. 


Create two new nonterminals, T and N; 


Replace S with the production set 
SET OF(A— NT, NR 5 f 
T of, TOA) 


.,N- G0 
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N 生 成 B, … 二 中 的 任意 一 人 个。 例如， 考虑 下 面 的 左 递 归 表 达 式 文法 : 


该 文法 包含 左 递归 ， 因 此 不 是 LL(D 的 。 它 的 形式 适合 自 底 向 上 的 语法 分 析 技 术 ， 因 此 可 能 出 现在 程序 


设计 语言 的 文法 中 。remove_Left_recursion() 能 够 用 来 重 写 其 中 的 两 个 左 递归 产生 式 ， 得 到 
E — E1 Etail 
E1 => T 
Etail -> +T Etail 
Etail 一 ìà 
T 一 T1 Ttail 
T1 > P 
Ttail  — * P Ttail 
Ttail — à 
P — ID 


TEAEARRTEURITY BME TP RAN EN, 因此 可 以 用 相应 的 右 部 来 替换 它们 ， 得 到 


E — T Etail 
Etail  — + T Etail 
Etail -À 

T — P Ttail 
Ttail  — + P Ttail 
Ttail - A4 

P > ID 


该 文法 等 价 于 原来 的 文法 ， 且 是 LL(1D) 的 。 事 实 上 ， 


它 非常 类 似 于 通常 用 于 程序 设计 语言 的 LL(1) 文 法 。 


提取 公共 前 级 和 删除 左 递归 是 用 于 将 文法 LL(D) 化 的 主要 变换 方法 。 然 而 ， 在 极 少 情况 下 ， 可 能 需 


要 其 他 的 转换 。 例 如 ， 考 虑 下 面 的 文法 片段 ， 它 可 能 出 现在 允许 把 标识 符 作为 标号 的 语言 


<stmt> — «label» <unlabeled stmt» 
«label» — ID: 

«label» 一 入 

«unlabeled stmt» — ID := <expr> ; 


EZER HAAR, FATA, BIXOCHSRAELLODÉO. EID TMI TP label 7" 4E 
式 。 解 决 方法 是 从 第 二 个 和 第 四 个 产生 式 中 提取 ID ， 得 到 下 列 等 价 文法 ， 它 是 LL(D 的 : 


<stmt> — ID «id sutfix> 

«id suffix» 一 : «unlabeled stmt» 
«id suffix» — := «OXpr» ; 
<uniabeled stmt» — — ID := «expr» ; 
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在 某 些 情况 下 甚至 需要 更 复杂 的 提取 公共 前 级 的 方法 。 例 如 ， 在 Ada 的 数组 声明 中 ， 数 组 范围 可 被 
声明 为 显 式 区 间 对 或 者 是 村 素 类 型 (discreet type) 或 子 类 型 (subtype) 的 名 字 。 也 就 是 说 ， 可 以 有 A : 
array(|..J, Boolean)。 在 定义 数组 范围 时 可 以 写 


. «array bound» — <expr> .. «expr» 
«array bound» — ID 


因为 ID 可 以 从 <expr> 中 生成 ， 所 以 这 里 有 一 个 预测 冲突 。 由 于 Ada 中 可 能 存在 的 表达 式 的 多 样 性 ， 从 
<expr> 中 提取 !D 会 非常 元 长 乏味 。 因 此 ， 一 个 变通 的 方法 是 写 : 


<array bound» — — «expr» <bound tail» 
«bound tail> 一 .. <expr> 
<bound tail> +» A 


如 果 仅 出 现 单独 的 <expr>， 它 必须 生成 一 个 ID。 这 可 以 在 语义 处 理 时 检查 ， 因 为 只 有 ID 能 够 命名 一 个 类 
型 或 子 类 型 。 | | 

所 有 包含 结束 标记 的 文法 都 能 被 重 写 成 所 有 产生 式 右 部 都 以 终结 符号 开始 的 形式 ; 这 种 形式 称 为 
Greibachit,X, (Greibach normal form) ( 见 练习 9 )。 一 旦 一 个 文法 是 Greibach 范 式 形 式 ， 提取 公共 前 组 
就 很 容易 。 可 是 ， 令 人 惊讶 的 是 ， 即 使 这 种 形式 也 不 保证 文法 是 LL(D 的 《〈 见 练习 10)。 事 实 上 ， 正如 下 
一 节 所 讨论 的 ， 确 实 存在 没有 LL(1) 文 法 的 语言 结构 。 幸 运 的 是 ， 这 样 的 结构 在 实践 中 很 罕见 ， 而 且 可 
以 通过 对 LL(1) 分 析 技 术 的 适度 扩展 来 进行 处 理 。 


57 LL(1) 分 析 中 的 人 Then-Else 问 题 


几乎 所 有 普通 的 程序 设计 语言 结构 都 能 由 LL(1) 文 法 描述 。 然 而 ， 一 个 著名 的 例外 是 Algol 60. 
Pascal 和 C 的 if-then-else 结 构 。 该 结构 受到 被 称 为 “悬空 else” (dangling else) 的 问题 的 影响 ， 因 为 
else 子 句 是 可 选 的 。 问 题 是 then 部 分 可 能 比 else 部 分 更 多 ， 这 意味 着 then 和 else 的 匹配 不 是 惟一 的 。 
实际 上 ， 可 以 认为 if <expr> then <stmt> 部 分 是 一 个 开 括 号 而 else <stmt> 部 分 是 可 选 的 闭 括号 。 因 此 
我 们 不 得 不 分 析 在 结构 上 等 价 于 

BL = { J 1i>j>0} | mE 
的 东西 。 不 幸 的 是 ， 该 语言 不 是 LL(1) 的 ， 而 且 事 实 上 对 于 任意 的 k， 它 也 不 是 LLCK) 的 。 可 以 通过 考虑 
一 些 可 用 来 描述 BL (Bracket Language， 括 号 语言 ) 的 文法 来 了 解 该 问题 。 

显而易见 的 第 一 次 尝试 是 Gi: 


S 一 [SCL 
S oA 
CL >] 
CL oA 


这 里 Ct 生成 可 选 的 闲 括 号 。 然 而 ， G, 有 一 个 主要 问题 一 一 它 是 二 义 的 。 例 如 ，CL CL 能 够 以 两 种 不 同 的 
方式 生成 “]”， 这 要 取决 于 哪 一 个 CL 生 成 】 而 哪 一 个 生成 入 。 

为 消除 二 义 性 问题 ， 可 以 构造 遵守 Algol 60、Pascai 和 C 规 则 的 文法 ， 它 以 最 近 未 匹配 的 “[ ”来 匹 
配 每 个 “]"。 这 将 导致 G: | 

S {S$ 

S 一 $1 


Si [S1] 
S1 A 


G ,生成 地 个 或 多 个 未 匹配 的 “[" ， 后 面 跟随 零 个 或 多 个 匹配 括号 对 。 事 实 上 ，G2 可 以 通过 使 用 自 底 向 上 
杜 术 进行 分 析 (例如 SLR(1)， 这 在 第 6 章 中 讨论 )。 然 而 ， 它 不 是 LL(1) 的 ， 对 任意 k， 它 也 不 是 LL(K) 的 。 
问题 是 [eFirst([S) 且 [EFirst(S1)。 类 似 地 ，[[EFirstz([S) 且 [[EFirstz(S1)， 等 等 。 特 别 地 ， 仅 看 到 开 括 号 ， 
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LL 分 析 器 无 法 确定 预测 它 是 配对 的 还 是 不 配对 的 开 括号 。 这 说 明 自 底 辣 上 的 语法 分 析 器 有 一 个 优点 一 一 
它们 能 延迟 宣告 一 个 产生 式 ， 直 到 匹配 了 完整 的 右 部 。 自 顶 向 下 的 方法 却 无 法 延迟 一 一 它们 必须 仅 根据 
所 看 到 的 由 右 部 推导 出 的 第 一 个 〈 或 前 k 个 ) 符号 预测 一 个 产生 式 。 在 这 种 情形 下 ， 延 述 的 能 力 是 至 关 
重要 的 。 mE | | 

常常 用 来 处 理 LL(D 分 析 器 中 悬空 else 问 题 的 技术 是 使 用 二 义 文 法 加 上 一 些 特殊 情况 的 规则 来 解析 分 
析 中 出 现 的 任意 非 惟 一 产生 式 。 该 技术 将 在 6.7.3 节 中 详细 讨论 。 

考虑 Ga: 

GS 

S—ifSE 

S — Other 


E elseS 
EA 





Gs 是 二 义 的 ， 并 导致 下 面 LL(1) 分 析 表 : 





最 接近 的 if 相关 联 。 即 ， 在 预测 E 时 ， 如 果 看 到 else 为 超前 搜索 符号 ， 将 会 立刻 进行 匹配 。 因 此 ， 令 
T[E][else] = Predict 4。 这 项 工作 可 以 手工 完成 ， 或者， 最 好 通过 声明 对 产生 式 4 的 预测 优先 于 产生 式 5。 
如 5.8 节 所 述 ，LLGen 语 法 分 析 器 生成 器 允许 通过 使 用 产生 式 列 出 的 顺序 定义 它们 的 优先 级 来 解决 二 义 的 
预测 选择 。 | | 

最 后 ， 再 回 到 悬空 else 问 题 。 在 某 种 非常 现实 的 意义 上 ， 这 不 是 文法 或 语法 分 析 问 题 ， 而 是 语言 设 
计 问 题 。 如 果 所 有 if 语句 都 以 end if 或 某 些 等 价 符号 结束 ， 就 不 会 出 现 这 种 问题 。 因 而 ,可 以 使 用 下 列 
形式 的 文法 : 


S 5+ HSE 
S — Other 
E 5 else S end if 
E end if 


该 文法 无 疑 是 LL(D) 的 。 谦 愤 的 语言 设计 通常 能 够 扩展 可 能 的 语法 分 析 选 择 的 范围 。 语 言 设 计 必 须 始 终 
记 住 可 由 一 个 结构 引起 的 编译 和 语法 分 析 问 题 。 


5.8 LLGen 一 LL(1) 语 法 分 析 器 生成 器 


LLGen 是 一 个 LL(1) 语 法 分 析 器 生成 器 。 它 接受 CFG 规 范 并 产生 用 来 分 析 指 定语 言 的 分 析 表 。 

LLGen 由 威斯康辛 大 学 麦迪 了 进 分 校 的 Jon Mauney 编 写 。 | 

LLGen 的 输入 
LLGen 的 输入 主要 有 三 节 : 运行 所 需 的 选项 ， 文 法 的 终结 符号 ， 文 法 的 产生 式 规 则 。 输入 的 一 般 形 

* fmq 

选项 

* define 4 

常量 定义 


* terminals 
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终结 符 规范 

* Productions 
产生 式 规范 _ 

* end | 


TER 


Micro 的 规范 示例 在 图 5-14 中 给 出 : 


符号 


注释 


This is an LL(1) 


grammar for the 


world famous Micro language 


*fmq 
bnf vocab 


statistics noerrortables parsetables 


*terminals 
ID 


begin 

end 

read 

write 
*productions 
«program» 
«statement list» 
«statement tail» 
«statement tail» 
«statement» 
«statement» 
«statement» 

«id list» 

«id tail» 

«id tail» 

«expr list» | 
«expr tail» 
«expr tail» 
«expression» 
«primary tail» 
«primary tail» 
«primary» 
«primary» 
«primary» 

«add op» 

«add op» 

*end 


begin «statement list» end 
«statement» «statement tail» 
«statement» «statement tail» 


ID := «expression»? ; 
read ( «id list» ) ; 
write ( «expr list» ) ; 
ID «id tail» 

, ID «id tail» 


«expression» <expr tail» 
, «expression» <expr tail» 


«primary» «primary tail» 
«add op» «primary» «primary tail» 


( «expression» ) 


on on a4 we ea ** er oa tr se +H bė an oF on oe + ++ ++ [LE] aa 





图 5-14 Micro 的 LLGen 规 范 
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符号 由 任意 可 打印 字符 序列 组 成 ; 它们 由 空白 、 制 表 符 或 行 结 束 符 分 隔 。 符 号 中 不 能 包含 空白 或 制 
到 符 ， 除 非 该 符号 由 尖 括 号 “<” 和 “>” 包 围 。 如 果 符 号 以 “<” 开 头 ， 则 必须 以 “> 结尾 。 
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在 *fmq 之 前 或 kend 之 后 的 任何 东西 都 被 认为 是 注释 而 会 被 忽略 。 但 是 ， 注释 不 能 包含 上 述 两 个 保 、 
留 符号 中 的 任何 一 个 。 


选项 


跟 在 *fmq 之 后 是 零 个 或 多 个 选项 的 列表 ， 以 空白 、 制 表 符 或 行 结束 符 分 隔 。 选项 控制 所 生成 的 表 
的 种 类 和 打印 的 信息 类 别 。 可 用 选项 的 完整 描述 出 现在 附录 C 的 LLGen 用 户 手册 中 。 
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常量 定义 
常量 定义 节 是 可 选 的 。 如 果 存 在 ， 它 以 保留 符号 *define 开 始 ， 由 一 列 定义 组 成 ， 每 个 定义 都 占 单 
独 一 行 。 每 个 定义 的 形式 为 


<const name> <integer value> 


其 中 ，<const name> 是 上 面 所 描述 的 符号 ， 而 <integer value> 是 无 符号 整数 ( 即 仅 包含 数字 的 符号 )。 
随后 ,该 常量 可 以 被 用 于 任何 需要 整数 常量 的 地 方 : 在 随后 的 常量 定义 中 以 及 对 于 语义 例 程 编号 。 注意 ， 
该 特性 不 像 开 始 看 起 来 那么 有 益 ， 因 为 LLGen 的 输出 列表 将 使 用 数量 值 ， 而 不 是 常量 名 。 
终结 符 

保留 符号 *terminals 开 始 一 列 终结 符号 。 终 结 符 规范 节 由 这 样 的 一 列 规范 组 成 ， 每 条 规范 都 占 单 
独 一 行 。 所 有 终结 符 必须 出 现在 该 列表 中 。 应 当 对 终结 符 进行 排序 ， 以 使 所 分 配 的 序号 与 词法 分 析 嚣 中 
所 使 用 的 任意 整数 代码 一 致 。 也 就 是 说 ， 如 果 end 的 主 词法 记号 代码 是 4， 则 end 应 当 在 终结 符 列表 中 第 
四 个 出 现 。 
PORA 

符号 *productions 将 终结 符 和 产生 式 分 隔 开 。 产 生 式 由 一 组 规则 指定 ， 每 条 规则 都 占 单独 一 
产生 式 规范 的 形式 为 : 


«Ihs» ::= «rhs» 

符号 “::=” 是 “一 ”的 同义词 ,而 “一 ”在 大 多 数字 符 集中 不 可 用 。<Ihs> 或 <rhs> 可 以 不 存在 。 
<Ihs> 是 一 个 表示 非 终结 符 的 符号 。 如 果 它 不 存在 ， 则 使 用 前 面 产生 式 的 <ins>。<rhs> 是 一 个 符号 串 ， 
包含 产生 式 的 文法 符号 ， 以 及 指示 当 到 达 产 生 式 的 适当 点 时 所 调用 语义 例 程 的 动作 符号 。 动 作 符号 由 
“#” 后 面 跟随 一 个 无 符号 整数 或 已 定义 的 常量 组 成 ， 其 间 没 有 空白 。 如 果 <rhs> 不 存在 或 其 中 仅 包含 动 
作 符号 ， 则 <ths> 推 导出 空 囊 N\。<rhs> 可 以 通过 使 随后 的 行 以 保留 符号 “.…” 开 始 来 续 行 ( 仅 有 产生 式 


可 以 这 样 续 行 )。 


结束 符 

产生 式 列表 以 *end 结 束 。 在 处 理 完 所 有 产生 式 之 后 ， 添 加 拓 广 产生 式 。 两 个 符号 ， <goal> 和 $$$， 
以 及 一 个 产生 式 : 

«goal» ::= «s» $$$ 
被 添加 到 文法 中 ， 其 中 ，<s> 是 列表 中 第 一 个 产生 式 的 左 部 ，<goal> 是 开始 符号 ， 而 $$$ 是 结束 标记 。 
LLGen 将 结束 标记 表示 为 $$$ 以 允许 $ 和 $$ 在 所 定义 的 语言 中 可 以 自由 使 用 。 
LLGen 的 输出 

分 析 表 格式 的 详细 描述 见 LLGen 用 户 手 册 (参见 附录 C)。 LLGen 的 输出 所 提供 的 信息 包括 

。 尺 寸 参数 (终结 符 的 数量 、 产 生 式 的 数量 ， 等 等 )。 

。 所 有 产生 式 的 右 部 。 

*。LL(1) 分 析 表 。 

。 能 导出 空 串 的 符号 列表 。 

。 文 法 中 所 有 符号 的 符号 化 表示 。 
如 果 指 定 的 文法 不 是 LL(1) 的 ， 则 将 报告 所 有 的 冲突 。 如 果 操 作 zesolve 处 于 激活 状态 ， 则 产生 式 将 根 
据 它们 出 现 的 次 序 被 赋予 优先 级 。 第 一 个 列 出 的 产生 式 有 最 高 优先 强 。 因此 Pascal 以 及 其 他 语言 中 的 攻 
空 else 可 以 用 以 下 产生 式 进行 分 析 : 


<if stmt> -= if <expr> then «stmt» «else part» 
«else part» ::= else «stmt» 


+ 
a 
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神 突 将 通过 优先 使 用 语句 的 第 一 种 形式 (即将 eise 与 最 近 出 现 的 i 匹配 ) 来 解决 。 

应 当 小 心 使 用 该 解析 机 制 。 冲突 必须 被 仔细 地 检查 以 保证 所 采取 的 分 析 动 作 是 所 期 望 的 动作 。 例如 ， 
颠倒 上 面 <else part> 产 生 式 的 次 序 对 于 LLGen 来 说 完全 可 以 接受 ， 但 是 会 产生 灾难 性 的 后 果 。 当 else 出 
现在 超前 搜索 符号 中 时 ， 所 采取 的 分 析 动 作 将 总 是 预测 <else part> 推 导出 空 串 ; else 将 永远 不 被 接受 。 

图 $-14 中 所 示 的 Micro 的 规范 说 明了 LLGen 的 使 用 。 


5.9 LL(1) 分 析 器 的 性 质 


我 们 可 以 证 明 LL(1) 分 析 器 的 下 列 一 些 有 用 的 性 质 : 

* 确保 存在 正确 的 最 左 语法 分 析 。 

这 一 点 根据 LL(1) 分 析 器 “模拟 ”最 左 推导 这 样 一 个 事实 得 出 。 对 于 共享 公共 左 部 的 产生 式 .， 
Predict 集 总 是 惟一 的 。 因 此 ， 在 任意 给 定点 仅 有 一 个 可 能 的 预测 符合 剩余 的 输入 。 这 就 是 LL(1) 
分 析 器 所 选择 的 预测 。 

e LL(1) 类 中 所 有 文法 都 是 非 二 义 的 。 

如 果 一 个 文法 是 二 义 的 ， 则 某 些 字符 囊 拥有 两 个 或 多 个 不 同 的 最 左 分 析 。 这 意味 着 在 某 些 护 存 在 
多 个 可 能 的 正确 预测 ， 而 对 于 某 些 左 部 ， 这 将 导致 非 惟一 的 Predict 集 。 

。 所 有 LL(1) 分 析 器 在 线性 时 间 内 运行 ， 而 且 最 多 占用 线性 大 小 的 空间 (相对 于 被 分 析 的 输入 的 长 度 )。 
LLUD) 分 析 器 的 每 次 迭代 都 由 一 个 输入 符号 负责 。 此 外 ， 任 意 给 定 的 输入 符号 最 多 负责 常数 次 先 
代 。 词 法 记号 可 能 导致 一 系列 预测 ， 随 后 是 一 个 匹配 或 错误 标志 。 直 接 或 间接 推导 出 和 的 A 的 预测 
由 导致 A 被 压 人 栈 中 的 输入 符号 负责 。 所 有 其 他 的 预测 由 当前 输入 符号 (超前 搜索 符号 ) 负责 。 
如 果 当 前 记号 导致 不 推导 出 的 B 的 预测 ， 则 在 匹配 当前 记号 (或 者 发 现 一 个 错误 ) 之 前 B 不 能 再 
次 出 现 。 如 果 B 确 实 又 一 次 出 现 ， 将 导致 无 限 循环 ， 而 这 会 违反 LL(1) 的 正确 性 性 质 (第 1 扩 )。 
此 ， 每 一 个 输入 符号 导致 有 限 次 数 的 迭代 ， 并 遵循 线性 规律 。 

(在 分 析 栈 中 ) 使 用 多 于 线性 的 空间 将 意味 要 花费 多 于 线性 的 时 间 将 条 目 压 和 人 栈 中 。 


5.10 LL() HET 


在 LL(1) 中 使 用 的 单 符号 超前 搜索 可 以 扩展 到 Kk 个 符号 。 这 将 产生 强 LL(K) (Strong LL(K)) 文法 类 。 
根据 定义 ，G 是 强 LL(K) 的 ， 当 和 且 仅 当 对 产生 式 A > BANA > y (B¥Y), 

First, (B Followx(A) A Firstk(Y Folow, (A)} = © 
回忆 Firstx 和 Followx 是 将 First 和 Follow 推 广 到 k 个 符号 的 一 般 形式 。 

强 LL(k) 使 用 全 局 超前 搜索 (global lookahead) (通过 Follow 集 ) 来 做 出 分 析 决 策 。 巧 合 的 是 ， 
LL() = 强 LL(1)， 但 一 般 而 言 ， 对 于 K > 1， 强 LL(K) 是 LL(K) 的 真子 集 。 

下 观 地 说 ， 可 以 把 LL(k) 定义 为 最 强大 的 自 顶 向 下 方法 ， 它 使 用 所 有 左 部 上 下 文 (left-context)、 要 
扩展 的 非 终结 符 以 及 k 个 超前 搜索 符号 来 做 出 分 析 决 策 。 这 种 方法 可 以 形式 化 如 下 : G 是 LL(k) 的 ， 当 且 
仅 当 三 个 条 件 

GQ) SornLwAa-,Wpo-'wx 


(Q) S=* wAa=_, Wy Wy 
(3) First, (x)-First.(y) 


— eR Mp Y. 





该 定义 简单 地 声称 G 是 LL(k) 的 ， 当 且 仅 当 已 知 所 有 左 部 上 下 文 w、 要 扩展 的 符号 A， 以 及 下 面 的 
个 输入 符号 了 时，Firstx(x) = Firstt(y) 总 是 足够 惟一 地 确定 下 一 个 预测 。 
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_56 AA: A 


该 文法 不 是 LL(1) 的 ， 因 为 b 同 时 预测 两 个 左 部 为 A 的 产生 式 。 然 而 ， 它 是 LL(2) 的 。 这 是 因为 在 上 下 文 
aAa 中 ， 超 前 搜索 符号 ba 预测 A 一 b， 而 a$ 则 预测 A 一 入。 类 似 地 ， 在 上 下 文 bAba 中 ， 超 前 搜索 符号 bb 
预测 A 一 b， 而 超前 搜索 符号 ba 则 预测 A 一 入。 但 对 任何 Kk > 1， 该 文法 不 是 强 LL(K) 的 ， 因 为 

First, (ba$) e First, (bFollow, (A)) First (4. Follow, (À)) 


[3] BE f FH Fo Mo w 4i (05 2 Jy i EU IRE EAA. BU. MR—PE SDA LAER TF CPR 
随 A， 则 b € Follow(A)。 然 而 ， 这 并 不 意味 着 b 可 以 在 所 有 上 下 文中 跟随 A。 因 此 ， 在 上 述 例子 中 ，bag$ 
可 以 在 一 个 上 下 文中 跟随 A， 但 不 能 在 另 一 个 上 下 文中 跟随 A。 强 LL(k) 文 法 不 能 处 理 这 种 微妙 的 区 别 。 

解决 方法 是 构造 针对 LL(k) 分 析 机 制 的 精确 超前 搜索 。 为 构造 LL(k) 分 析 器 ， 创 建 形式 为 [A，L] 的 新 
的 非 终 结 符 条 目 ， 其 中 A_E Vi 且 L GE Verk%。Ve* 是 不 长 于 k 的 终结 符 串 的 集合 。L 表 示 在 某 些 上 下 文中 适 于 
A 的 精确 超前 搜索 符号 集合 。 

MIS, {和 A] 开始。 现在 如 果 预 测 条 目 [A, L]， 要 求 对 于 x EL, A >a, A 一 B (cB)， 必 须 总 是 满足 
First,(ax) Firstx(Bx) = 名。 也 就 是 说 ， 使 用 存储 在 上 中 的 局 部 超前 搜索 符号 而 不 是 Firstx(A) 来 确定 怎样 扩 
展 A。 假 定 对 [A, 由， 如 上 所 述 ， 已 经 决定 使 用 A > of RA, Hepa = x; Bii Bo - Bm Xm m20Hx € 
Vi, BiE Vn, 1<i< m。 注 意 ,， 任 意 产生 式 右 部 都 可 以 被 写成 这 种 形式 ， 它 分 离 了 产生 式 右 部 的 非 终结 符 。 

然后 通过 将 

Xo (By,L1] x+ (Be, Lo] > < [Bm, Lm} xm 
压 和 信 栈 中 来 扩展 A， 其 中 对 1 <i< m,，L; = { x|x € Firstx(x; Bur … Bm Xm y, y EL}。 自 然 地 ， 我 们 计算 
这 些 L 集 合 一 次 ， 然 后 构造 分 析 表 ， 并 使 用 [A, LJ 对， 就 好 像 它们 是 添加 到 扩展 CFG 中 的 新 的 非 作 结 符 。 

重新 考虑 我 们 的 示例 文法 : 


并 且 构 造 一 个 LL(2) 分 析 器 。 从 [G, {AHF HA: 
现在 [G, {和 jj 遇 到 {aa, ab, bb} 中 的 超前 搜索 符号 时 预测 [S, ($))$. 
[S, {$j 过 到 {aa, ab} 中 的 超前 搜索 符号 时 预测 a [A, (a$)] a. 
[S, 人 jj 遇 到 {bb} 中 的 超前 搜索 符号 时 预测 b [A, (ba)] ba. 
(A, {a$j] 遇 到 {fba} 中 的 超前 搜索 符号 时 预测 bp ， 遇 到 {a$} 中 的 超前 搜索 符号 时 预测 入 。 
类 似 地 ，[A, {baj] 遇 到 {bb} 中 的 超前 搜索 符号 时 预测 b， 遇 到 {ba} 中 的 超前 搜索 符号 时 预测 入 。 


”关键 是 A 被 分 裂 为 两 个 非 终结 符 。 这 将 允许 [A, {a$j 遇 到 超前 搜索 符号 ba 时 预测 b， 而 [A, {baj] 遇 到 ba 时 


预测 入 。 实 际 上 ， 我 们 创建 了 一 个 等 价 、 但 是 更 大 的 CFG: 


[G0] = [SASS 
[S.{$}] - afA{a$}ja 
[S{$}} o b [A.{ball ba 


> 
& 
i 


[A[a$] 一 和 
[A.{ba}] 一 b 
[Afba] 一 入 


强 LL(K) 和 LL(K) 主 要 是 有 理论 上 的 价值 ， 因 为 只 有 LL(1) 分 析 器 被 用 于 实践 。 然 而 ， 正如 所 期 望 的 
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那样 ， 可 以 证 明 有 趣 的 文法 包含 关系 。 例 如 : 

* LL(k) C LL(k +1) 

*S&LL( C 强 LL(k+1) 

。 强 LL(K) C LL(k),k > 1 
有 趣 的 是 ， 能 够 由 LL(K) 和 强 LL(K) 分 析 器 分 析 的 语言 类 随 着 k 的 增加 而 增加 。 下 列 语言 能 够 由 至 少 使 用 k 
个 超前 搜索 符号 的 LL 或 强 LL 分 析 器 进行 分 析 。 

L = (a"(b,c,b*d)^ nz 全 
这 里 的 思想 是 对 每 个 a， 必 须 匹配 一 个 pb、 一 个 c， 或 者 一 个 bd 串 。 使 用 k 个 符号 的 超前 搜索 ， 可 以 这 样 
做 : 接受 一 个 pb， 如 果 下 面 的 k 个 符号 是 bc1d， 则 也 接受 它们 以 形成 bd 串 。 使 用 k-1 个 符号 的 超前 搜索 
则 不 行 ， 因 为 在 第 一 个 b 之 后 看 到 be 而 无 法 判断 它 是 be 1d 的 一 部 分 还 是 k 个 独立 的 b 的 一 部 分 。 

先前 我 们 曾 注意 到 LL(1) = 强 LL(1)， 尽 管 如 此 ， 对 于 Kk > 2，LL(k)* 强 LL(k)。 这 个 结果 在 练习 12 中 
得 出 。 尽 管 强 LL(1) 和 LL(1) 精 确 地 表示 相同 的 文法 类 ， 强 LL(1) 和 LL(1) 所 需 的 分 析 表 大 小 并 不 相同 ， 有 
时 差别 很 大 。 如 上 所 见 ， 这 是 因为 LL(1) 结 构 添加 了 新 的 非 终结 符 和 和 新 的 产生 式 。 因 此 ， 在 实践 中 使 用 
的 LL(1) 分 析 器 几乎 总 是 需要 较 小 分 析 表 的 强 LL(1) 分 析 器 。 然 而 ， 当 发 现 语法 错误 时 ， 强 LL(1) 和 LL(1) 
分 析 器 的 动作 不 同 。 尽 管 这 在 分 析 中 没有 区 别 ， 但 在 执行 语法 错误 修复 时 仍然 会 成 为 一 个 问题 。 在 第 17 
章 中 ， 讨 论 在 使 用 强 LL(1) 分 析 表 时 执行 LL(1) 错 误 修复 的 方法 。 | 


练习 
1， 下 列 文法 中 哪些 是 LL(1) 的 ?解释 为 什么 。 
a S 一 ABc b S 一 Ab 
A >a A a 
A 2A A 3B 
B ob A 一 人 
B 9A B b 
B AX 
c S - ABBA d S -aSe 
A >a S >B 
A X B -bBe 
B 一心 B >C 
B oA C —cCe 
C od 


2， 为 下 列 文法 构造 LL(1) 分 析 表 : 


Expr 一 - Expr 
Expr — (Expr) 
Expr — Var ExprTail 
ExprTail — ~ Expr 
ExprTail >A 

Var > ID VarTail 
VarTail — ( Expr) 
VarTail >À 


3， 跟 踪 练 习 2 中 文法 的 LL(D 分 析 器 在 输入 为 ID--ID((ID)) 时 的 操作 。 
4， 使 用 5.6 节 的 技术 ， 将 下 面 的 文法 变换 为 LLCD 的 形式 : 


DeciList .  — DeclList ; Dect 
DeclList — Decl 
Decl — ldList : Type 
ldList — IdList , ID 
idList — ID 

^ Type — ScalarT 


ype 
Type — array ( ScalarTypeList ) of Type 
ScalarType 一 ID 


136 
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10. 


|l. 
.证 明 每 个 LL(1) 文 法 也 是 强 LL(1) 的 。 


14. 


ScalarType — Bound .. Bound 
Bound — Sign INTLIT 
Bound > ID 

Sign > + 

Sign 一 一 

Sign >À 


ScalarTypeList — ScalarTypeList , Scalar Type 
ScalarTypeList — ScalarType 


.通过 LLGen 或 者 任何 其 他 的 LL(1) 语 法 分 析 器 生成 器 来 运行 练习 4 的 解决 方案 ， 以 验证 它 的 确 是 LL(1) 


的 。 你 怎样 知道 你 的 解决 方案 与 原始 文法 生成 相同 的 语言 ? 


.证 明 每 个 正则 集 都 能 够 通过 LL(1) 文 法 来 定义 。 
， 如 果 有 A 一 'A 这 样 的 情况 ， 称 一 个 文法 拥有 环 (cycle)。 证 明 有 环 的 文法 不 可 能 是 LL(1) 的 。 
在 5.9 节 中 证 明了 LL(1) 分 析 器 在 线性 时 间 内 运行 。 即 ， 当 分 析 输 入 时 ， 语 法 分 析 器 处 理 每 个 输入 符 


号 平均 仅 需要 常数 范围 的 时 间 。 
是 否 会 出 现 这 样 的 情况 : 一 个 LL(I) 分 析 器 需要 多 于 常数 范围 的 时 间 来 接收 某 些 特定 符号 ? 换 句 话 
说 ， 我 们 能 否 限定 连续 调用 词法 分 析 器 以 得 到 下 一 个 输入 记号 的 时 间 间 隔 为 常数 ? 


， 文 法 是 Greibach 范 式 (Greibach Normal Form, GNF), ， 如 果 所 有 产生 式 都 形 如 A 一 aa, 其 中 a 是 终 


结 符 而 a 是 任意 符号 串 。 令 G 为 不 生成 和 的 任意 文法 。 给 出 一 个 算法 ,将 G 转 换 为 GNF。 

如 果 使 用 练习 9 中 开发 的 算法 将 一 个 文法 转换 为 GNF， 我 们 知道 文法 中 不 会 有 左 递归 。 转 换 后 的 文 
法 仍然 可 以 含有 公共 前 级 ， 因 此 可 能 不 是 LL(1) 的 。 假 定 使 用 5.6 节 (ULEH5-12) 的 factor( ) 函数 来 
提取 公共 前 级 。 产 生 的 文法 将 既 没 有 左 递 归 又 没有 公共 前 级 ， 并 且 将 在 形式 上 “接近 ”LL(1)。 证 
BH: 在 非 二 义 文法 中 不 含 公共 前 级 和 左 递归 不 保证 该 文法 是 LL(1) 的 。 

使 用 5.10 节 的 技术 为 下 列 文法 构造 LL(2) 分 析 器 : 


Stmt = ID; 

Stmt  — ID (ldList); 
Stmt — ID: Stmt 
IdList — ID 

IdList  — ID, IdList 


提示 : 证 明 任意 不 满足 强 LL(1) 定 义 的 的 文法 也 一 定 不 满足 LL(1) 定 义 。 

证 明 对 于 每 个 LL(k) 文 法 ， 存 在 生成 相同 语言 的 强 LL(k) 文 法 。 

提示 : 考虑 通过 构造 形式 为 [A, L] 的 非 终结 符 对 文法 进行 扩展 。 

使 用 5.3 节 的 技术 ， 编 写 程序 ， 读 入 由 LLGen 生 成 的 分 析 表 并 产生 相应 的 递归 下 降 分 析 过 程 。 
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6.1 B-ANN 


自 顶 向 下 的 语法 分 析 器 所 关心 的 基本 问题 是 决定 使 用 哪个 产生 式 来 扩展 特定 的 非 终 结 符 。 类 似 地 ， 
自 底 向 上 的 语法 分 析 器 所 关心 的 基本 问题 是 决定 何 时 将 看 似 产生 式 右 部 的 符号 替换 为 它 的 左 部 。 这 决 不 
是 无 足 轻 重 的 。 多 个 产生 式 可 能 拥有 相同 的 右 部 。 而 且 ， 可 能 看 起 来 像 产生 式 右 部 的 符号 实际 上 并 不 是 。 
如 果 文 法 包含 和 产生 式 ， 则 入 可 以 在 任意 分 析 上 下 文中 被 匹配 的 事实 使 得 识别 产生 式 右 部 变 得 复杂 化 。 
一 个 移 进 - 归 约 分 析 器 (shift-reduce parser) 按 如 下 方式 工作 。 一 个 分 析 栈 ， 初 始 为 空 ， 包 含 已 经 
分 析 过 的 符号 。 分 析 栈 和 剩余 输入 连接 起 来 总 表示 一 个 右 句 型 。 词 法 记号 被 移 进 分 析 栈 中 ， 直 到 栈 顶 包 
SAMO. WIL: 句柄 是 匹配 某 些 产生 式 右 部 的 符号 序列 ， 它 可 被 正确 地 替换 为 产生 式 左 部 。 勾 柄 
的 归 约 通过 在 分 析 栈 中 将 它 替换 为 分 析 树 中 作为 其 父 结 点 的 非 终结 符 进行 。 当 所 有 输入 都 已 经 被 消耗 且 
栈 中 仅 包含 目标 符号 时 报告 分 析 成 功 。 
问题 是 要 知道 何 时 已 经 到 达 句 柄 的 末尾 ， 然 后 确定 名 柄 的 长 度 ， 最 后 要 知道 当 存在 两 个 拥有 相同 右 
部 的 产生 式 时 ， 把 句柄 归 约 成 哪个 非 终结 符 。 
考虑 一 个 非常 简单 的 移 进 - 归 约 分 析 器 驱动 程序 ， 如 图 6-1 所 示 。 该 驱动 程序 利用 了 一 个 包含 分 析 状 
态 (parse state) 的 分 析 栈 (parse stack ) ， 分 析 状 态 通常 被 编码 为 整数 。 分 析 状 态 表 示 分 析 的 当前 状态 。 
FEREN, 分 析 状 态 对 已 经 移 进 的 符号 和 当前 正在 匹配 的 句柄 进行 编码 。 驱 动 程序 使 用 两 张 表 ， 
action 和 go_to。 action 告 诉 分 析 器 是 移 进 、 归 约 、 成 功 终止 ， 还 是 通知 一 个 语法 错误 。 go_to 表 定 
义 在 一 个 词法 符号 或 产生 式 左 部 被 匹配 并 移 进 时 的 后 继 状 态 。 





void shift reduce driver (void) 
















* 

* Push the Start State, So, 
* onto an empty parse stack. 
*/ 

push (So) ; 

while (TRUE) { /* forever */ 

/* 






* Let S be the top parse stack state; 
* let T be the current input token. 
*/ 


switch (action[S] [T]) ( 
case ERROR: 

announce syntax error(); 
break; 


case ACCEPT: 
. /* The input has been correctly parsed. */ 
clean up Á and : finish(); 

return; 










case SHIFT: 
push(go to[S] [T]) ; 
scanner(& T); /* Get next token. */ 





图 6-1 简单 的 移 进 - 归 约 驱动 程序 
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break; 
case Reduce; : 
/* 
* Assume i-th production is X — Y, - > 


* Remove states corresponding to 
. * the RHS of the production. — 
*/ 


pop (m); 

/* S is the new stack top. */ 
push(go to[S'] [X]); 

break ; 





图 6-1 (2x) 
各 种 移 进 - 归 约 分 析 器 从 上 下 文 无 关 文法 中 计算 出 分 析 状 态 、action 表 以 及 go_to 表 的 方法 各 不 相 
同 。 后 面 会 描述 解决 该 问题 的 许多 方法 ， 其 复杂 性 和 使 用 范围 各 不 相同 。 
下 列 文法 Go 生成 Pascal 式 语言 的 块 结构 : 


1. «program» 一 begin <stmts> end $ 
140 2. <stmts> — — SimpleStmt ; <stmts> 
t 4. <stmts>  — begin «stmts» end ; <stmts> 
141 4. «simt» ~> 


出 现在 图 6-2 和 图 6-3 中 的 action 表 和 go_to 表 对 应 于 Go。 随 后 将 详细 介绍 它们 的 结构 ; 目前 ， 假 
定 它 们 由 适当 的 移 进 - 归 约 分 析 器 生成 器 创建 。 在 action 表 中 ，S 代 表 移 进 ，A 代 表 接 受 ， 整 数 代表 归 
约 ， 而 空白 是 错误 条 目 。 在 go_to 表 中 ， 条 目 是 状态 编号 。 开 始 符号 <program> 所 在 的 行 ， 在 两 张 表 中 

都 是 空 的 。 这 是 因为 一 旦 到 达 开 始 符号 ， 分 析 随 即 终止 。 作 为 优化 ， 可 以 删除 这 些 行 。 


一 
SimpleStmt 





图 6-3 Go 的 移 进 - 归 约 go_to 表 


现在 可 以 跟踪 移 进 - 归 约 分 析 器 在 输入 为 begin SimpleStmt; SimpleStmt; end SHAR, dn 
图 6-4 所 示 。 产 生 下 列 归 约 序列 : 产生 式 4， 产 生 式 2， 产 生 式 2。 该 序列 是 最 右 分 析 ; BD. 它 是 相应 最 右 
推导 的 逆序 。 
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begin SimpleStmt ; SimpleStmt ; end $ Shift 
0,1 


















SimpleStmt ; SimpleStmt ; end $ 





0,1,5 . | ; SimpleStmt ; end $ 





0,1,5,6 | SimpleStmt ; end $ 


0,1,5,6,5 | ;end $ 





| end $ 





0,1,5,6,5,6 





0,1,5,6,5,6,10 


0,1,5,6,10 


图 6-4 移 进 - 归 约 分 析 示 例 


6.2 LR 分 析 吕 


LR 分 析 的 概念 由 Knuth(1965) 提 出 。 像 所 有 的 语法 分 析 技术 一 样 ， LR 分析 器 由 超前 搜索 符号 的 个 数 


来 刻画 。LR 分 析 器 检查 这 些 超前 搜索 符号 以 决定 分 析 动 作 。 我 们 可 以 明确 表示 超前 搜索 参数 并 讨论 
LR(k) 分 析 器 ， 其 中 k 是 超前 搜索 符号 的 个 数 。 

理论 上 ， 关 注 LR(K) 分 析 器 ， 是 因为 它 是 最 多 使 用 k 个 超前 搜索 符号 的 最 强大 的 确定 性 自 底 向 上 的 分 
析 器 类 。 确 定性 语法 分 析 器 必须 在 每 一 步 惟一 确定 正确 的 分 析 动 作 ; 它们 不 能 回 退 或 重 试 分 析 动 作 。 该 
特性 意味 着 如 果 一 个 文法 G 能 够 由 任何 使 用 k 个 超前 搜索 符号 的 确定 性 自 底 向 上 分 析 器 分 析 ， 则 能 够 为 G 


构造 一 个 LR(k) 分 析 器 ; 反之 ， 则 并 不 一 定 ， 这 并 不 奇怪 一 一 某 些 可 由 LR(k) 技 术 分 析 的 文法 超出 了 其 他 


自 底 向 上 技术 的 能 力 。 
本 章 的 大 部 分 内 容 将 致力 于 众多 LR(k) 变 种 的 分 析 器 构造 问题 。 在 我 们 深入 实现 细节 之 前 ， 根 据 
LR(k) 所 必 有 的 特性 来 形式 化 LR(K) 的 定义 将 是 有 效 。 

所 有 移 进 - 归 约 分 析 器 都 移 进 符号 并 检查 超前 搜索 符号 ， 直 到 找到 句柄 的 结尾 。 随 后 句柄 被 归 约 为 
在 栈 中 替换 它 的 非 终结 符 。 为 了 移 进 - 归 约 分 析 器 能 够 正确 运行 ， 分 析 器 必须 在 仅 知道 已 经 移 进 的 符 
以 及 下 面 的 k 个 超前 搜索 符号 时 ， 决 定 是 移 进 还 是 归 约 。 

假定 在 某 些 LR(K) 文 法 中 存在 两 个 句 型 apw 和 aBy， 它 们 是 如 此 相似 ， 以 至 它们 共享 一 个 公共 前 级 
aB 以 及 一 个 共同 的 k 个 超前 搜索 符号 Firstdy) = Firstx(w)。 假 定 aBw 可 被 归 约 为 xcAWw， 而 cBy 可 被 归 约 为 
JBx。 因 为 这 两 个 句 型 依据 已 经 移 进 的 前 级 和 超前 搜索 符号 串 来 说 是 完全 相同 的 ， 所 以 同样 的 归 约 必须 
能 够 同时 应 用 于 两 者 。 也 就 是 说 ， 可 以 把 aBy 归 约 为 YBx 或 者 uAy， 而 且 必 须 得 到 相同 的 结果 ， 这 意味 着 
aAy = yBx. 

按照 定义 ，LR(K) 分 析 器 在 已 知 直到 句柄 结尾 处 的 所 有 左 部 上 下 文 以 及 k 个 超前 搜索 符号 时 ， 总 能 义 
确定 正确 的 归 约 。 用 正式 的 术语 ， 一 个 文法 G 是 LR(K) 的 ， 当 且 仅 当 三 个 条 件 : 

( S=, oAw—m aBw, and 00007 


(2 S =m WBX =m OBY. and 
(3) First, (w) = First, (y) 
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fü & aAy = yBx. 

该 定义 是 有 益 的 ， 因 为 它 定义 了 可 由 LR(k) 技 术 分 析 的 文法 所 必须 拥有 的 最 少 特性 。 它 没有 告诉 我 们 
怎样 实际 构造 一 个 LR(K) 分 析 器 ， 而 事实 上 Knuth 的 开创 性 工作 的 主要 贡献 是 LR(K) 的 一 个 构造 算法 。 我 们 
开始 于 可 能 是 最 简单 的 LR 分 析 器 : LR(0) ， 它 不 使 用 任何 超前 搜索 符号 。 尽 管 LR(0) 分 析 器 过 于 简单 而 无 
法 用 于 分 析 真 正 的 程序 设计 语言 , 但 它们 的 确 说 明了 一 般 LR(K) 分 析 的 许多 原则 。 讨论 过 LR(0) 分 析 器 之 后 ， 
我 们 将 把 讨论 推广 到 LR() 分 析 器 和 它们 的 变 体 。 


6.2.1 LR(0) 分 析 


LR(0) 和 所 有 其 他 的 LR 式 分 析 方 法 都 基于 如 下 形式 的 项 目 (configuration 或 item) 的 概念 : 

A XX eX 
更 精确 地 说 ， 具 有 该 形式 的 项 目 是 LR(0) 项 目 (LR(0) configuration)， 因 为 其 中 不 含 超前 搜索 信息 。 

点 符号 “。” 可 以 出 现在 产生 式 布 部 的 任何 地 方 。 它 标记 相应 产生 式 已 被 匹配 的 多 少 。 一 般 而 言 ， 
将 考虑 许多 可 能 应 用 的 产生 式 ， 因 此 将 使 用 项 目 集 (configuration set)。 项 目 集 包 含 在 分 析 的 给 定 扩 所 
应 用 的 所 有 项 目 。 

例如 ， 项 目 集 


«stmt» ID 。:= <expr> 
«Stmt» 9 ID: «stmt» 
«stmt» ID. 


表示 一 个 标识 符 可 以 和 三 个 不 同 产生 式 中 的 任意 一 个 的 一 部 分 匹配 的 情形 。 因为 不 知道 哪个 产生 式 可 用 ， 
所 以 需要 维护 表示 所 有 三 种 可 能 的 项 目 。 

我 们 从 项 目 集 {S 一 ，a$} 开 始 分 析 ， 它 预测 拓 广 产生 式 。 辐 忆 在 第 2 章 中 假定 所 有 文法 都 进行 了 拓 
广 ， 因 此 它们 有 惟一 以 开始 符号 S 作 为 左 部 的 产生 式 。 该 产生 式 总 是 生成 结束 符号 $， 作 为 推导 中 的 最 后 
一 个 符号 。 
一 般 而 言 ， 我 们 称 点 号 在 产生 式 右 部 最 左 端的 项 目 预 测 (predict) AFER. KUE, RURAS 
在 产生 式 右 部 最 右 端的 项 目 识别 (recognize) 该 产生 式 。 

ES 一 a$ 中 ，a 可 由 非 终结 符 开始 ， 在 此 情况 下 将 必须 添加 更 多 的 预测 和 项 目 。 这 由 LR(0) 闭 色 
(closure) 运算 完成 ， 如 图 6-5 中 所 定义 。 
configuration set closureO(configuration set s) 


{ 
configuration set s’ = s; 


do ( 
if (B 0 « Ap € s' for AcVa) í 

/* 

* Predict productions with A 

* as the left-hand side. 

*/ 

Add all configurations of the form 

A — eyto s' 


} while (more new configurations can be added) 


return $';. 


} 





图 6-5 求 LR(0) 项 目 集 闭 包 的 算法 
作为 示例 ， 考 虑 G1: 
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S = E$ 

E- E«TIT 

T — ID | (E) 

closureO({S 2 eE$})={ S- eE§$, 
E+.E+T, 
E -> eT, 
T 5 eID, 
T -> «(E)) 


该 闭 包 集 说 明了 一 个 事实 : 为 匹配 非 终结 符 E， 必 须 匹 配 以 E 作 为 左 部 的 一 个 产生 式 。 因 为 可 能 包 
括 E 一 T， 所 以 可 能 需要 匹配 以 T 作 为 左 部 的 产生 式 。 闭 包 运 算 确 保 包 含 为 匹配 所 有 合法 推导 序列 所 必 
需 的 项 目 。 

为 构造 初始 项 目 集 seo， 预测 拓 广 产生 式 并 求 其 闭 包 : 

so = closureO([S > »a$]) 


给 定 项 目 集 s， 可 以 计算 面临 符号 X 时 它 的 后 继 (successor) S', Ligo_to0(s, X) = s 表示， 如 图 6-6 所 未 。 


configuration set go to0(configuration set s, symbol X) 
{ 
sb = Ø; 
for (each configuration c c s) 
if (c is of the form A p » X y) 
Add A PX «© y to s; 


/* 


* That is, we advance the » past the symbol X, 
* if possible. Configurations not having a 

* dot preceding an X are not included in s,. 
*/ 


/* Add new predictions to s, via closureO. */ 
return closure0 (s,) ; 





图 6-6 计算 LR(0) go. to 函数 的 算法 


有 可 能 出 现 这 种 情况 : go_toO(s, X) = 8B， 空 集 。 这 意味 着 面临 X 时 s 中 的 项 目 没 有 后 继 ， 因此 结果 
是 空 项 目 集 。 在 分 析 时 遇 到 空 项 目 集 ， 则 表示 出 现 了 语法 错误 。 | mE 
一 个 上 下 文 无 关 文 法 中 的 产生 式 数量 是 有 限 的 ， 因 此 不 同 项 目 和 项 目 集 的 数量 也 是 有 限 的 。 所 以 ， 
可 以 通过 将 项 目 集 和 后 继 运 算 分 别 视 为 状态 和 转换 来 构造 称 为 特征 化 有 限 状 态 机 (Characteristic Finite 
State Machine, CFSM) 的 有 限 自 动机 。 构造 CFSM 的 算法 在 图 6-7 中 给 出 。 










void build CFSM (void) 
{ 

Create the Start State of the CFSM; Label it with so 
Create an Error State in the CFSM; Label it with eo 


S = SET OF( so ): 









while(S is nonempty) { 
Remove a configuration set s from S; 
/* Consider both terminals and nonterminals */ 
for (X in Symbols) ( | 
if (go toO0(s,X) does not label a CFSM state) { 
Create a new CFSM state and label it 
with go toO0(s,X); 
Put go tod (s,X) into S; 
} 
Create a transition under X from the state s 
labels to the state go _to0(s,X) labels; 


图 6-7 为 文法 计算 CFSM 的 算法 





E LE A 


例如 ， 给 定 文法 G2: 


S 一 S$ 

S = IDIA 
build CFSM( ) 会 构造 如 图 6-8 所 示 的 CFSM。 为 清晰 起 见 ， 我 们 忽略 了 相应 于 空 项 目 集 的 错误 状态 以 及 
到 它 的 转换 。 | | 


E 





图 6-8 G.ffyCFSM 


因为 可 能 的 项 目 集 数 量 是 有 限 的 ， 且 build_cFSM( ) 仅 处 理 每 个 项 目 集 一 次 ， 所 以 我 们 可 知 该 算法 


总 会 终止 。 


在 第 3 章 中 我 们 学 习 了 有 限 状 态 机 能 够 用 转换 表 来 表示 。 CFSM 也 能 够 以 表格 的 形式 表示 一 一 以 移 
进 - 归 约 分 析 器 中 使 用 的 go_to 表 的 形式 。 图 6-9 给 出 由 CFSM 构 造 go_to 表 的 算法 。 


int ** build go to table (finite automaton CFSM) 
{ 
const int N = num states (CFSM) ; 
‘int **tab; 
Dynamically allocate a table of dimension 
N x num symbols (CFSM) to represent 
the go to table and assign it to tab; 


Number the states of CFSM from 0 to N-1, 
with the Start State labeled 0; 


for (S = 0; S <= N — 1; S++) { 


/* Consider both terminals and nonterminals. */ 
for (X in Symbols) ( E 
if (State S has a transition under X 
to some state T) 
tab[S] [X) = T: 
else 
tab[S) (xj = EMPTY: 


} 


return tab; 





图 6-9 构造 LR(0) go_to 表 的 算法 


对 图 6-8 的 CFSM 应 用 bui1d_go to table()， 得 到 图 6-10 所 示 的 go_to 表 。 注意 : 图 6-8 中 省 略 的 
状态 4 是 错误 状态 。 
一 般 而 言 ， 我 们 在 示例 中 给 出 CFSM 而 不 是 go_to 表 。 实际 的 LRCO) 分 析 器 利用 对 应 了 CT 


go_to 表 以 及 一 个 action 表 来 做 出 分 析 决 策 。 
右 句 型 的 活 前 级 (viable prefix) 是 不 超出 句柄 的 任意 前 经 。CFSM 从 结构 上 说 ， 接受 从 所 分 析 的 文 
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法 中 可 推导 出 的 活 前 绥 。 

回忆 移 进 - 归 约 分 析 器 ， 它 们 包括 LR 式 分 析 器 ， 是 由 go_to 
表 和 action 表 来 驱动 的 。 前 面 已 经 定义 了 LR(0) go_to 表 ; 现在 
必须 确定 怎样 计算 action 表 。action 表 的 角色 很 简单 一 一 它 用 于 
决定 CEFSM 是 否 到 达 句 柄 的 末尾 。 如 果 已 经 到 达 ， 则 指示 归 约 动作 
或 接受 动作 ; 否则 ， 应 当 执 行 移 进 动作 。 

因为 LR(0) 不 使 用 超前 搜索 ， 所 以 必须 从 CFSM 的 项 目 集 中 直 
接 提取 action 国 数 。 令 Q = (Shift, Reduce, Reduces, …} 为 可 能 6-10 文法 Go 的 go_to 表 
的 移 进 和 归 约 动作 集 。 定 义 一 个 投影 (projection) 函数 P， 将 项 目 集 s 映 射 为 表示 s 中 可 能 的 移 进 和 归 约 
动作 的 Q 的 子 集 。 | 

令 S, 为 CFSM 的 状态 集 ， 每 个 状态 由 一 个 特定 的 状态 集 标 识 。 则 P : S, — 29. 29: ORTH, BQ 
的 所 有 子 集 的 集合 。P 把 每 个 CFSM 集 映射 到 Q 的 适当 子 集 。P(s) 被 定义 为 : 

(Reduce; | BO pee s and production i is B > pj o 





(IK A — aeaBe s for ac V, Then {Shift} Else Ø) 


G 是 LR(0) 的 ， 当 且 仅 当 Vs € S, |P(s)] = 1。( |P(s)| 代 表 集 合 P(s) 的 大 小 。 因 此 |1P(s)| = 1 意味 
着 P 必 须 是 单 值 的 。) 

如 果 G 是 LR(0) 的 ， 则 action 表 可 以 被 简单 地 从 P 中 提取 : 

* P(s) = {Shift} = action[s] = Shift 

« P(s) = {Reduce;}， 共 中 产生 式 j 是 拓 广 产生 式 ， 二 action[s] = Accept 

e P(s) = {Reduce}, i*j = action[s] = Reduce; 

¢ P(s) = Ø = action[s] = Error; action[O] = Error 

对 |P(s) |>1 的 任意 状态 s € So 被 称 为 不 足 的 (inadequate )， 有 两 类 语法 分 析 器 冲突 会 在 项 目 集中 创 
建 不 足 的 状态 : | | 

。 移 进 - 归 约 冲 突 (shift-reduce conflict). 在 相同 的 项 目 集中 同时 可 能 存在 移 进 和 归 约 两 种 动作 。 

。 归 约 ~ 归 约 冲 突 (reduce-reduce conflict). 在 相同 的 项 目 集中 可 能 存在 两 个 或 多 个 不 同 的 归 约 动作 。 

通常 ，CFSM 状 态 中 的 不 足 性 通过 使 用 action 函 数 中 的 超前 搜索 符号 来 解决 。 

由 于 很 容易 在 CFSM 状 态 中 引入 不 足 状 态 ， 因 此 ， 很 少 有 真正 的 文法 (那些 用 于 生成 真正 的 程序 设 
计 语 言 的 文法 ) 是 LR(0) 的 。 例 如 ， 考 虑 和 产生 式 。 由 于 和 产生 式 的 右 部 为 空 ， 它 已 准备 好 一 旦 被 预测 就 
进行 归 约 。 因 此 ， 涉 及 和 产生 式 的 惟一 可 能 的 项 目 形式 为 A — 入 。 (有 了 时 写成 A —> +). Ait, 如 果 A 能 够 |] 
生成 任意 不 同 于 和 的 终结 符 串 ， 则 一 个 移 进 动作 也 一 定 是 可 能 的 (为 接受 First(A) 中 的 符号 ) 。 因 此 移 进 - 
归 约 冲突 对 于 入 产生 式 是 不 可 避免 的 ， 除 非 该 产生 式 的 左 部 符号 只 能 生成 和 。 

类 似 地 ， 大 多 数 程序 设计 语言 都 拥有 运算 符 优先 级 别 。 在 缺少 显 式 的 括号 时 ， 某 些 运算 符 比 其 他 运 
算 符 优先 。 例 如 ， 在 大 多 数 程序 设计 语言 中 ，A := B+C*D; 的 含义 是 A := B+(C*D); 而 不 是 A := (B+C)*D;. 

使 用 LR(0) 分 析 器 的 编译 器 对 于 操作 符 优先 级 的 正确 处 理 可 能 会 有 问题 。 如 果 编 译 器 在 翻译 A : 
B+C+D;， 则 它 应 当 在 移 进 C 之 后 妇 约 B+C， 因为 加 法 是 左 结 合 的 。 然 而 ， 如 果 编 译 器 在 翻译 A := 
B+C*D;， 则 它 在 移 进 C 后 不 应 当归 约 B+C ， 因 为 乘法 比 加 法 优先 。 没有 超前 搜索 符号 《LR(0) 不 能 使 用 
它 ) 时 ， 不 容易 区 别 这 两 种 情况 。 

前 面 的 讨论 出 明了 很 难为 “真正 的 程序 设计 语言 编写 LR(0) 文 法 。 不 过 ， 一 个 更 基本 的 问题 是 ， 
究竟 是 否 有 可 能 为 感 兴趣 的 程序 设计 语言 编写 LR(0) 文 法 。 令 人 惊讶 的 是 ， 答 案 是 可 以 。 如 本 章 稍 后 所 
述 ， 如 果 一 种 程序 设计 语言 有 一 个 结 束 标记 一 一 实际 情况 总 是 这 样 一 一 而 且 能 够 由 任何 一 种 使 用 任意 数 
量 超 前 搜索 符号 的 LR 式 语法 分 析 技 术 进 行 分 析 ， 则 等 价 的 LR(0) 文 法 必定 存在 。 当 然 ， 该 LR(0) 文 法 可 
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作为 LR(0) 分 析 器 构造 的 例子 ， 考 虑 G1: 


S> E$ 
E> E+T|T 
T > IDI(E) 


首先 ， 构 造 CFSM， 如 图 6-11 所 示 。CFSM 状 态 以 它们 所 代表 的 项 目 集 标记 ， 并 且 从 0 开始 编号 以 便 
在 action 表 中 引用 。 | 


FTN [5 


E 一 eE+T 
E eT 

T — eid 

T (E) 











M EE-«eT 
T=>sd 
T 一 ef(E) 


[m] [m 


E> Ee+T 


) 


图 6-11_G 的 CFSM 
如 果 检 查 图 6-11 的 CFSM， 将 看 到 每 个 状态 要 么 执行 移 进 (因为 * 在 终结 符 左边 ) 要 么 执行 惟一 的 归 
约 〈 因 为 * 处 于 一 个 单独 的 产生 式 的 右 端 )。 这 意味 着 没有 移 进 - 归 约 和 归 约 - 归 约 冲突 ; 因此 ，、G1 是 LR(0) 
的 。go_to 表 可 以 使 用 build_go_to_table() 来 创建 。 在 go_to 表 中 ， 在 CFSM 图 中 被 省 略 的 状态 10 是 
错误 状态 。action 表 如 图 6-12 所 未 。 S 表 示 Shift; A 表 示 Accept; 空白 表示 Error; Ri 表示 Reducei。 


( 状态 | 0 "oT1[213T4[5]6[7[8 | 9 | 10) 
a |5 [S[A]S]|R2|R4|S|S|R5|R3] | 
图 6-12 G1 的 action 表 


6.2.2 如何 判定 LR(0) 分 析 程 序 工作 的 正确 性 


在 实际 使 用 LR(0) 分 析 器 之 前 ， 我 们 需要 确信 它们 可 以 正确 运行 。 这 通常 通过 陈述 并 证 明 一 个 “ 正 
兢 性 定理 ”来 完成 。 对 于 我 们 的 目的 而 言 ， 重 要 的 是 包含 在 这 样 一 个 证 明 中 的 洞察 力 。 一 旦 理解 了 基本 
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思想 ， 也 就 容易 明白 证 明 的 细节 。 

LR(0) 分 析 器 的 正确 性 依赖 于 两 点 观察 。 首 先 ，CFSM 仅 能 读 入 的 符号 串 是 所 分 析 的 文法 的 活 前 缀 。 
这 一 点 观察 非常 重要 ， 因 为 它 告诉 我 们 如 果 看 到 非法 符号 ， 那 么 该 符号 将 不 会 被 语法 分 析 器 所 接受 ， 理 
由 是 它 不 可 能 是 活 前 级 的 一 部 分 。 

第 二 点 观察 是 语法 分 析 器 的 action 表 正确 地 指示 了 适当 的 动作 。 即 ， action 表 指示 移 进 直到 看 到 
句柄 的 结尾 。 随 后 它 指 示 必 要 的 归 约 ， 用 相应 的 产生 式 的 左 部 替换 句柄 。 

回忆 右 句 型 的 医 前 绥 是 不 超出 其 句柄 的 任意 前 级 。 名 柄 是 可 被 正确 地 归 约 为 非 终结 符 的 最 左 短语 。 
直观 地 说 ，LR(0) 分 析 器 或 任何 其 他 的 移 进 - 归 约 分 析 器 会 移 进 符号 以 形成 一 个 活 前 组 ， 直 到 整个 句柄 都 
被 移 进 为 止 。 随 后 该 句柄 被 归 约 为 单独 的 非 终 结 符 。LR(0) 分 析 器 的 CFESM 必 须 能 够 读 和 所 有 活 前 组 以 保 
证 没有 漏 掉 任何 合法 归 约 。CFSM 不 需要 读 入 右 句 型 的 所 有 可 能 的 前 级 ， 因 为 句柄 一 被 移 进 并 识别 ， 就 
立即 被 归 约 。 类 似 地 ， 如 果 一 个 符号 序列 不 可 能 是 任何 右 句 型 的 前 级 ， 则 它 无 法 被 分 析 并 且 不 应 被 
CFSM 接 受 。 

假定 有 活 前 绥 v， 怎 样 从 其 中 创建 新 的 医 前 绥 呢 ? v 的 任意 前 组 都 是 活 前 级 ， 而 且 如 果 Vv 仅 包含 终结 
符 ， 则 这 些 前 级 是 可 由 它 创 建 的 仅 有 的 活 前 级 。 如 果 v 至 少 包含 一 个 非 终 结 符 B， 则 可 以 把 v 写 成 aBy。 
可 以 使 用 某 个 产生 式 B -> 8 来 重 写 B 得 到 aBy。aB 的 任意 前 缀 都 是 活 前 级 ， 由 于 B 是 句柄 ， 因 此 没有 活 前 
绎 可 以 扩展 超过 $8。 作为 一 般 的 规则 ， 我 们 通过 取 以 非 终 结 符 B 结 是 的 活 前 级 并 把 B 替 换 为 B 的 任意 前 织 ， 
来 创建 新 的 活 前 绥 ， 其 中 B — B. 

为 证 明 活 前 级 和 由 CESM 所 读 和 人 的 字符 串 的 对 应 关系 ， 从 CFSM 的 开始 状态 so 开始 。so 可 通过 读 人 入 
到 达 ， 而 入 是 所 有 右 句 型 的 活 前 绥 。 根 据 其 构造 ，so 包 含 一 个 基本 项 : S 一 。a$。so 面 临 c$ 时 有 后 继 。 
这 是 正确 的 ， 正 如 我 们 所 知 a$ 的 所 有 前 缀 都 是 活 前 级 ， 因 为 a$ 可 被 归 约 为 S。 令 BC 是 a$ 的 以 非 终 结 符 
结尾 的 任意 前 级 。 在 读 入 B 后 ， 将 处 于 CFSM 的 一 个 状态 s， 其 中 包含 形 如 D — y * C6 的 项 目 。 这 种 形式 
的 一 个 项 目 必定 出 现在 s 中 ， 因 为 我 们 知道 从 状态 s 开 始 可 以 读 人 C。 因 为 C 是 非 终结 符 ， 对 于 左 部 为 C 的 
每 条 产生 式 ，LR(0) 闭 包 操作 将 包含 形 如 C 一 。p 的 项 目 。 根 据 其 构造 ， 状 态 s 面 临 输入 p 时 有 后 继 状态 ， 
这 意味 着 Bp 的 任意 前 缀 可 以 从 so 读 人 。 重 复 这 样 的 论证 ， 容易 看 出 从 Bp 创建 的 任意 活 前 级 也 能 够 由 
CFSM 读 入 。 因 此 ， 以 状态 so 开始 的 CFSM 能 够 读 入 所 有 可 能 的 活 前 级 。 

为 明白 CFSM 仅 读 入 活 前 级 ， 假 定 由 CFSM 所 读 入 的 所 有 长 度 为 n 的 字符 串 都 是 活 前 缀 。 这 对 n = 0 
的 情况 肖 定 是 正确 的 。 令 BX 是 可 由 CFSM 读 和 人 的 长 度 为 n+1 的 字符 串 。 在 读 入 了 B 后 ， 必 定 处 于 状态 Ss 中 ， 
从 它 开始 可 以 读 入 X。 这 意味 着 s 包 含 形 如 B — Y。X56 的 项 目 。 该 项目 是 基本 项 或 者 闭 包 项 。 如 果 它 是 基 
本 项 ，Y 必 定 至 少 一 个 字符 长 ， 否 则 该 项 目 一 定 是 开始 项 目 S 一 ，a$。 已 知 0$ 的 所 有 前 组 都 是 活跃 的 ， 
因此 假定 |yY| = m > 1。BX 的 最 后 m 个 符号 必 为 Y， 因 为 s 中 包含 B 一 Y。X8。 在 读 和 人 BX 开头 的 n - mA TES 
有 号 w 之 后 ， 将 处 于 包含 B 一 。YyX6 的 状态 s'。s' 必 须 也 包含 B 的 前 面 直接 为 * 的 项 目 ， 因为 B 一 。YyX8 仅 能 通 
过 预测 被 创建 。 因 此 ，B 能 够 从 s' 读 入 ， 且 因此 wB 能 够 从 so 读 入 。 由 于 |wB| <n，wB 是 活 前 级 ， 且 因此 
wyX = BX 也 是 活 前 级 。 

如 果 B 一 y。X5 是 闭 包 项 ， 则 Y 必 定 为 空 。 B 一 。 Xs 通 过 求 某 个 基本 项 的 闭 包 被 直接 或 间接 地 加 入 。 
即 ，s 必 定 包 含 基础 项 D -> 68。Cir， 其 中 C, 一 C202, Ca 一 Caos, …, Cp > Ban。 利用 上 一 段 的 论证 ， 
可 以 断定 BB 是 活 前 级 ， 且 BX 也 是 活 前 弘 。 | 

以 上 已 经 证 明了 CFSM 精 确 地 接受 所 分 析 的 文法 的 活 前 绥 集 。 为 确信 LR(0) 分 析 器 能 够 正确 工作 ， 
全 下 的 一 切 就 是 要 证 明 相应 于 CFSM 状 态 的 语法 分 析 器 action 表 总 是 执行 正确 的 分 析 动 作 。 

假定 正在 分 析 某 个 有 效 输入 字符 串 z， 并 且 已 经 完成 了 零 次 或 多 次 正确 的 归 约 得 到 右 句 型 yy， 其 中 y 
是 剩余 的 输入 ， 而 Y 已 经 被 移 进 分 析 栈 中 .。 我 们 通过 从 y 移 进 零 个 或 多 个 终结 符号 到 达 下 一 个 句柄。 假定 
S= * aAw — maBw， 其 中 aB =Yx， 且 xw = y。 即 ， 正 确 的 语法 分 析 器 动作 是 读 人 x， 随后 执行 A — B 
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的 归 约 。 可 以 确信 这 是 LR(0) 编 译 器 将 要 做 的 吗 ? 

假定 在 移 进 Y 之 后 处 于 状态 s。x 能 够 从 s 读 人 ， 因 为 Yx = aB 是 活 前 级 。 进 一 步 ， 语 法 分 析 器 直到 移 
进 所 有 x 之 前 不 执行 归 约 。 这 个 结果 是 根据 这 样 一 个 事实 得 出 : 在 移 进 x 时 访问 的 每 个 状态 必须 执行 移 进 
动作 ， 因 此 任意 归 约 动作 将 导致 移 进 - 归 约 冲突 ， 而 这 对 LR(0) 文 法 来 说 是 不 允许 的 。 

因此 语法 分 析 器 在 读 入 x 时 不 执行 假 归 约 。 已 知 aA 是 活 前 弘 。 读 入 a 之 后 所 到 达 的 状态 一 定 包含 项 目 


B 一 v。A8， 并 因此 也 包含 项 目 A 一 。B。 该 状态 面临 B 的 后 继 必 须 包含 项 目 A 一 B。， 此 状态 在 移 进 x 之 后 


到 达 ， 而 且 将 会 执行 所 期 望 的 归 约 动作 。 

以 上 论述 证 明 ， 在 已 经 将 输入 字符 串 z 归 约 为 yy 之后， 语法 分 析 器 将 正确 地 执行 下 面 的 步骤 ， 并 把 
aBw 归 约 为 wAw。 通 过 对 推导 z 所 需 步 数 的 归纳 ， 可 以 确定 它 将 最 终 被 归 约 为 目标 符号 S， 由 此 成 功 地 完 
成 分 析 。 | 

最 后 一 点 ， 如 果 交 给 LR(0) 分 析 器 一 个 不 正确 的 输入 字符 串 将 会 怎样 ? CFSM 仅 能 够 读 入 活 前 级 ， 
因此 输入 车 在 某 些 点 不 能 被 归 约 为 活 前 绥 ， 语 法 错误 将 会 被 正确 地 检测 出 来 。 


6.3 LR(1) 分 析 


正如 先前 所 注意 到 的 ， 因 为 LR(0) 分 析 器 不 使 用 超前 搜索 符号 ， 它 们 不 能 分 析 编 译 器 编写 者 所 感 兴 
趣 的 大 多 数 文法 。 然 而 ，LR(1) 通 过 在 项 目 中 包含 超前 搜索 部 分 推广 了 LR(0)。LR(1) 项 目的 形式 为 
ADX XiX XI 其 中 le Wo] 


I BIER. IEMEERERESLATSLAMAS. BMRB ATEEN EREL 
局 后 可 能 的 超前 搜索 符号 。 超 前 搜索 部 分 通常 是 一 个 终结 符号 。 入 仅 在 拓 广 产生 式 中 作为 超前 搜索 符号 
出 现 ， 因 为 在 结束 标记 之 后 不 存在 超前 搜索 符号 。 

通常 ， 会 有 许多 LR() 项 目 仅 有 超前 搜索 部 分 不 同 。 使 用 下 列 记号 来 表示 共享 相同 加 点 产生 式 的 
LR(1) 项 目 集 : l 

A 一 Xi X Xi Xs dh Im 
这 种 形式 是 含有 相同 加 点 产生 式 和 超前 搜索 符号 hi, …,ln 的 m 个 项 目的 集合 的 简便 表示 。 

在 LR(1) 项 目 中 添加 超前 搜索 部 分 允许 我 们 做 出 超出 LR(0) 分 析 器 能 力 之 外 的 分 析 决 策 。 然 而 ， 需 要 
付出 一 定 代 价 。 现 在 ， 比 起 LR(0) 项 目 来 有 更 多 不 同 的 LR(1) 项 目 (与 词法 记号 集 的 大 小 |Vi| 成 比例 )， 
因此 可 能 有 更 多 的 LR(1) 项 目 集 。 这 会 大 大 增加 go_to 表 和 action 表 的 大 小 ， 而 表 的 大 小 正比 于 所 创建 
的 项 目 集 的 数量 。 事 实 上 ，LR(1) 分 析 器 的 主要 困难 不 是 它们 的 分 析 能 力 (回忆 LR(1D) 分 析 器 是 可 能 存在 
的 最 强大 的 仅 使 用 一 个 超前 搜索 符号 的 确定 性 自 底 向 上 语法 分 析 器 ) ， 而 是 找 出 最 经 济 的 存储 方式 来 表 
示人 他们。 | 

为 创建 LR(D) 分 析 器 ， 重 复 用 来 创建 LR(0) 分 析 器 的 步 又 ， 但 这 一 次 包含 超前 搜索 部 分 。 语 法 分 析 开 ， 
始 于 项 目 S >- a$, (}; 它 预 测 拓 广 产生 式 ， 并 将 空 吕 作为 惟一 的 超前 搜索 符号 。a 可 能 以 非 终结 符 开 
始 ， 因 此 需要 项 目的 闭 包 。LR(1) 闭 包 操 作 在 图 6-13 中 定义 。 

作为 示例 ， 重 新 考虑 Gi: 

S 5 E$ | 


E E+T|T 
T  IDI(E) 


MS > © ES, {入 } 开 始 ， 并 预测 以 E 作 为 左 部 符号 并 以 $ 作 为 搜索 符 的 产生 式 。 这 将 添加 
E ->。E+T, (SERIE ->。T, {$}。 再 次 预测 以 E 作 为 左 部 符号 并 以 + 作为 搜索 号 的 产生 式 .。 这 将 添加 E 一 。 
E«T, {+} 和 E — * T, {+}。 现 在 将 预测 以 T 作 为 左 部 符号 并 以 $ 和 + 作为 搜索 符 的 产生 式 : Tt ID, {+$} 和 和 
T 一 。(E), {+$}。 因 此 有 : 











LR > df 99 
closure1(S > «ES ={( So ES, {A}; 

E> «E+ T, {$+}; 

Eo el, {$+}; 


T = «ID, {$+}; 
T > o (E), ($4) 


configuration set closurel(configuration set s) 


configuration set s' - s; 


do { 
if (B 9 。 Ap,l es’ forAeV,) ( 
/* 
* Predict productions with A as the 


* left-hand side. Possible loockaheads 

* are First (p/) — 

*/ 

Add all configurations of the form A -o e y, u, 
where u cFirst(pl), to s' 


) while (more new configurations can be added) 
return s'; 





图 6-13 求 LR(1) 项 目 集 闭 包 的 算法 
为 创建 初始 LR(1) 项 目 s。， 预 测 拓 广 产生 式 并 求 其 闭 包 : 
so = Closure1({S -> 。 a$}, (3) 


给 定 一 个 LR(1) 项 目 集 6， 使 用 图 6-14 中 的 算法 ， 计 算 其 面临 符号 X 时 的 后 继 s'， 以 90_to1(s, XAR. 


configuration set go tol (configuration set s, symbol X) 
{ 

s, = Ø; 

for (each configuration c € s) 

if (c is of the form A >f +X y, ]) 
Add A —px » y, | to sp; 

/* 

* That is, we advance the « past the symbol X, 

* if possible. Configurations not having a 

* dot preceding an X are not included in s,. 

*/ 


/ * Add new predictions to s via closurel. */ 
return closurel(s5,); 





图 6-14 计算 LR(1) 90_to 函 数 的 算法 
LR(1) action 函 数 仅 当 存 在 非 空 后 继 状 态 时 指示 移 进 动 作 。 这 意味 着 空 项 目 集 是 不 可 达 的 


(unreachable) 并 且 可 以 被 忽略 。 不 同 的 LR(1) 项 目 和 项 目 集 的 数量 是 有 限 的 。 可 以 构造 类 似 于 LR(0) 
CFSM 的 有 限 自动 机 ， 称 其 为 LR(1) FSM 或 更 简单 地 称 为 LR(1) 机 有 器。 构造 LR(1) FSM 的 算法 在 图 6-15 中 
给 出 。 


LR(1) 机 器 和 CFSM 是 密切 相关 的 。 特 别 地 ， 一 个 文法 的 CFSM 能 够 从 LR(1) 机 器 通过 “合并 ” 除 超 


前 搜索 部 分 外 完全 相同 的 项 目 集 来 获得 。 相 似 地 ， 如 果 通 过 添加 超前 搜索 信息 对 CFSM 项 目 集 进行 “分 
烈 ”"， 可 以 创建 LR(1) 机 姓 。 


考虑 G。， 一 个 包含 + 和 * 的 表达 式 文 法 : 


S ~ E$ 

E 一 E+TIT 
T > T-+PJjP 
P — ID | (E) 
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void build LR1 (void) 


Create the Start State of the FSM; Label it with s, 
Put so into an initially empty set, S. 


while (S is nonempty) ( 
Remove a configuration set s from S; 
/* Consider both terminals and nonterminals */ 
for (X in Symbols) ( 
if (go tol(s,X) != Q) (U 


if (go tol(s,X) does not label a FSM state) 
Create a new FSM state and label it 
with go tol(s,X): 
Put go tol(s,X) into S; 
} 
Create a transition under X from the 
state s labels to the state 
go_tol(s,X) labels; 


图 6-15 构造 LR(1) FSM 的 算法 
给 定 文法 Ga，builqd_LR1 会 构造 LR(1) 机 器 ， 如 图 6-16 所 示 。 
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图 6-16 Gs 的 LR(1) 机 器 
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图 6-16 《 续 ) 


Gs 的 LR(1) 机 器 有 23 个 状态 ， 而 相同 文法 的 CFSM 只 有 13 个 状态 。 对 于 程序 设计 语言 的 文法 ，LR(1) 
机 器 的 大 小 通常 比 相应 的 CFSM 更 大 。 例如， 比 Ada 的 文法 更 小 也 更 简单 的 Algol 60 文 法 的 早期 经 验 表明 : 
需要 数 千 个 LR(1) 状 态 。 | | 

用 于 驱动 LR(1) 分 析 器 的 go_to 表 使 用 图 6-9 的 build_go_to_tablel( ) 例 程 直接 从 LR(1) 机 器 中 提 
取 。 由 于 项 目 中 包含 超前 搜索 信息 ，action 表 也 可 以 直接 从 LR(D 机 器 的 项 目 集中 提取 。 定 义 投影 函数 
(projection function) P， 将 项 目 集 和 超前 搜索 符号 映射 到 相应 二 能 的 移 进 或 归 约 动作 集 。 

4S ,为 LR(D 机 器 的 状态 集 ， 每 个 状态 由 一 个 特定 的 LR(1) 项 目 集 标 识 。 则 P : Si x Vt 2°, HPA 
是 可 能 的 移 进 或 归 约 动作 集 。P(s, a) 定 义 为 

(Reduce, B —>p。, ae sand production i is B —» p) O 

(If A — aeaB, be s Then (Shift Else Z) 


G 是 LR(1) 的 当 且 仅 当 Vs € S, Va € Vi [P(s, a)| <1. Bp, 对 于 所 有 状态 和 搜索 符 对 ， P 至 多 只 能 
包含 一 个 非 错误 动作 。 — 

如 果 G 是 LR(D 的 ， 则 容易 从 P 中 提取 action 函 数 : 
P(s,$) = {Shift} => action{s][$] = Accept 
P(s,a) = {Shift}, a«$ = action[s][a] = Shift 
P(s,a) = (Reduce = action[sj[aj = Reduce, 
P(s.a) = Ø = action[s)[a] = Error 

对 图 6-16 的 项 目 集 的 检查 表明 每 个 可 能 的 超前 搜索 符号 导致 惟一 的 动作 。 即 ， 搜索 符 ! 可 能 导致 移 进 
(如 果 一 个 * 出 现在 它 的 左边 )， 或 者 导致 归 约 (给 定形 如 A > ae, 的 惟一 项 目 )， 或 者 导致 一 个 错误 〈 如 采 
它 既 不 能 被 移 进 ， 也 不 是 归 约 搜索 符 )。 因 为 没有 移 进 - 归 约 和 归 约 - 归 约 冲突 发 生 ，Gs 是 LR(1) 的 。go_to 
表 可 以 使 用 build go_to_table() 直 接 从 LR(D 机 器 中 提取 。 Gs 的 LR(1) action 表 在 图 6-17 中 给 出 。 


6.3.1 LR(1) 分 析 的 正确 性 | | 
为 证 明 LR(1) 分 析 的 正确 性 ， 我 们 处 理 与 6.2.2 节 相同 的 问题 。 在 6.2.2 节 中 曾 证 明了 LR(0) 分 析 的 正 
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确 性 。 像 CFSM 一 样 ，LR(1) 机 器 仅 读 入 活 前 级 。LR(1D) 机 器 中 的 项 目 包含 超前 搜索 部 分 ， 且 证 明 这 些 超 
前 搜索 部 分 是 正确 的 非常 简单 。 即 ， 状 态 s 包 含 














LR(1) 项 目 A 一 器 。 => 
: DR H a BAA ER RIES +|l+*|lDl(|)[(s8 
mBAaw => m Baaw， 其 中 在 移 进 Ba 之 后 到 达 状 态 (0 | | 1S|S| | | 
s. 1 |S] | | | [^| 
该 证 明 非常 类 似 于 证 明 CFSM 精 确 地 读 入 活 前 —--——beT T 
缀 集 。 我 们 再 一 次 从 so 开始 并 证 明 如 果 超 前 搜索 的 |[4 Tasja | | |R5 
正确 性 性 质 对 于 某 个 状态 成 立 ( 它 对 于 so 当然 成 | 5 [Re|Re| | | | RE 
立 )， 则 它 对 于 该 状态 的 直接 后 继 也 成 立 。 -| ee 
B | 7 [Rs] S | | | [|R| 
旦 已 经 证 明 LR(1) 超 前 搜索 部 分 是 精确 的 ， rs | | fsfs] | | 
分 析 器 的 正确 性 自然 立即 成 立 。 假 定 我 们 正在 分 析 | 9 |RA[R4| | | |R4 
A EM TBA SEN E RAR | 10 | Re | Re] | [R6] | 
* 有 效 输 入 申 z 并 且 已 经 执行 了 专 个 或 多 个 正确 的 aap Re Ss PRE 
归 约 以 获得 右 甸 型 yy ， 其 中 y 是 剩余 输入 ， 而 且 Y 已 az Ts fT) |s] 
经 被 移 进 分 析 栈 中 。 通过 从 y 中 移 进 零 个 或 多 个 终结 (13 |Rm|[R| | | | a7] 
符号 到 达 下 一 个 句柄 。 假 定 S 一 1. 0AW > 4 aBw, 14 [R5 |R5]| | [R5] | 
其 中 aB = xHxw = y。 即 ,分析 器 的 正确 动作 是 读 7 $4 tt 84— 
人 Xx， 然后 执行 A 一 B 的 归 约 。 7 | | [S|S| | | 
进一步 假定 在 移 进 y 后 处 于 状态 s， 已 经 从 s 能 18 | | |sSlISl | | 
够 移 进 x， 因 为 yx = ab 是 活 前 组 。 进一步， 分 析 器 -部 十 也 十 二 一 -一 而 二 一 
在 直到 所 有 的 x 被 移 进 之 前 将 不 执行 归 约 ， 否 则 会 存 fe | 
| | a | | |sSlsl | | 
在 移 进 - 归 约 冲突 。 | 22 |R4|R4| | |R4| | 


令 First(w) = a。 已 知 状态 中 的 超前 搜索 符号 是 FIT Gu 的 LR() actioni 
正确 的 ， 在 读 入 a 之 后 ， 到 达 包 含 项 目 B — v * Ao, | 
b 的 状态 s'， 其 中 a E First(ab)。 在 求 闭 包 的 过 程 中 ， 加 入 一 项 A > * B a。s' 面 临 B 时 的 后 缀 是 必须 包含 
项 目 A > B。a， 且 由 分 析 器 在 移 进 x 之 后 所 到 达 的 该 状态 将 指示 所 期 望 的 归 约 动作 。 

该 论证 表明 在 已 经 把 输入 串 z 归 约 为 yy 之 后 ， 分 析 器 将 正确 地 执行 下 一 个 步骤 ， 并 把 aqBw 归 约 为 
auAw。 通 过 对 推导 z 所 需 步 数 的 归纳 ， 可 以 确定 它 最 终 会 被 归 约 为 目标 符号 S， 并 成 功 地 结束 分 析 。 


6.4 SLR(1) 分 析 


LR(0) 分 析 器 产生 紧凑 的 go_to 表 和 action 表 ， 但 它们 缺乏 分 析 用 于 定义 真正 的 程序 设计 语言 的 文 
法 的 能 力 。 而 LR(1) 分 析 器 则 是 使 用 一 个 超前 搜索 符号 的 最 强大 的 移 进 - 归 约 分 析 器 类 。 并 不 意外 的 是 ， 
实际 上 对 于 所 有 程序 设计 语言 都 存在 LR(1) 文 法 。 事 实 上 ， 语 言 设计 者 通常 需要 通过 LR(1) 文 法 来 规定 新 
的 程序 设计 语言 的 语法 。LR(1) 的 问题 在 于 LR(1) 机 器 包含 了 如 此 多 的 状态 以 至 于 go_to 表 和 action 表 变 
得 惊人 地 庞大 。 | 

为 了 应 对 LR(1) 分 析 表 空间 使 用 的 低 效 性 ， 计 算 机 科学 家 发 明了 几 平 与 LR(1) 同 样 强大 却 只 需要 小 得 
多 的 分 析 表 的 语法 分 析 技 术 。 可 以 看 到 两 种 通用 的 方法 。 一 种 是 从 通常 小 得 可 以 接受 的 CFSM 开 始 ， 并 
在 构造 出 CFSM 之 后 向 其 中 添加 超前 搜索 符号 。 这 种 方法 中 最 著名 的 例子 就 是 将 在 本 节 中 讨论 的 SLR(D) 
技术 。 | 

另 一 种 降低 LR(D) 的 空间 低 效 性 的 方法 是 合并 不 必要 的 LR(1) 状 态 。 如 果 简 单 地 合并 与 CFSM 的 状态 
对 应 的 所 有 状态 ， 则 得 到 LALR(1) 技 术 ， 它 将 在 6.5 节 中 讨论 。 如 果 对 于 如 何 合并 状态 更 谨慎 一 些 ， 有 可 
能 创建 与 普通 的 LR(1) 分 析 器 同样 充分 强大 的 语法 分 析 器 ， 而 其 空间 需求 与 SLR(1) 和 LALR(1) 相 当 。 








LR 分 f 103 


LR(1) 优 化 技术 在 6.9 节 中 讨论 。 

SLR(1) 代 表 简 单 的 LR(D)。 其 思想 由 DeRemer(1969, 1971) 引 人 。SLR(1) 使 用 了 LR(0) CFSM 并 结合 
以 一 个 符号 的 超前 搜索 。 即 ， 超 前 搜索 符号 不 是 直接 增加 到 项 目 中 ， 而 是 在 构造 了 LR(0) 项 目 集 之 后 加 
入 。 结 果 是 一 个 与 LR(1) 几 乎 同样 强大 但 使 用 少 得 多 的 空间 的 语法 分 析 器 。 事 实 上 ， 直 到 SLR(1) 和 
LALR(1) 被 广泛 认可 (在 20 世 纪 70 年 代 早 期 ) 之 前 ，LR 的 概念 一 直 被 视 为 仅 有 理论 上 而 不 是 实践 上 的 重 
要 性 。 其 后 不 久 它 们 就 取代 了 当时 使 用 的 基于 优先 级 的 技术 ( 见 6.12.2 节 )， 并 且 今 天 仍 在 被 广泛 使 用 。 

回忆 在 LRC 分 析 器 中 ,项目 中 的 超前 搜索 部 分 用 于 决定 何 时 适合 执行 归 约 动作 。SLR(D 并 不 从 项 月 
中 提取 超前 搜索 符号 ， 而 是 采用 一 种 更 简单 的 方法 代替 。 如 果 有 LR(0) 项 目 B 一 p。， 则 对 要 求 执行 归 约 
动作 的 超前 搜索 符号 的 最 低 要 求 是 它 和 该 产生 式 左 部 兼容 。 也 就 是 说 、 如 果 超 前 搜索 符号 /要 求 产 生 式 B 
> p 应 当 被 归 约 ， 则 /必须 能 够 合法 地 跟随 B， 因 为 在 归 约 之 后 它们 将 会 相 邻 。 使 用 这 个 逻辑 ， 如 果 超 前 
搜索 符号 在 集合 Follow(B) 中 ，SLR(1) 分 析 器 将 为 项 目 B 一 p。 执 行 妇 约 动作 。 这 导致 下 面 的 SLR(1) 
action 表 定义 。SLR(1) go_to 表 是 从 CFSM 中 提取 ， 并 且 与 LR(0) go_to 表 是 完全 相同 的 。 

回忆 So 是 CESM 状 态 集 。SLR(1) 投 影 函数 将 CFSM 状 态 和 超前 搜索 符号 映射 到 可 能 的 分 析 妖 动作 : 

P : Sox V, 29 其 中 Q 是 可 能 的 移 进 和 归 约 动作 集 
P(s, a) 被 定义 为 : 

(Reduce, | B 一 Pes S, ae Follow(B), and production i is B > p) Y 

(It A > a «af e s for ae V, Then {Shift} Else 2) 


G 是 SLR(1) 的 当 且 仅 当 Vs E S, Va E V,|P(s, a)| < 1。 即 ， 对 于 所 有 状态 和 超前 搜索 符号 对 ，P 至 
多 只 能 包含 一 个 非 错误 动作 。 

如 果 G 是 SLR(I) 的 ， 容 易 从 P 中 提取 action 国 数 : 
P(s,$) = (Shift! = action[s][$] = Accept 
P(s,a) = {Shift}, azx$ — actionfslfal = Shift 
P(s,a) = iIReduce) > action[s]ja] = Reduce; 
P(s,a) = Ø = action[s][a) = Error 
很 明显 ，SLR(1) 是 LR(0) 的 真 超 集 。 

作为 示例 ， 重 新 考虑 Ga， 已 知 它 是 LR(1) 但 不 是 LR(0) 的 。 它 是 SLR(1) 的 吗 ? 首先 ， 利用 
build CFSM( ) 构造 图 6-18 所 示 的 CFSM。 

状态 ?和 状态 11 是 不 足 的 ， 因 为 它们 各 自 包含 一 个 移 进 - 归 约 冲 突 。 在 这 两 种 情况 下 ， 如 果 看 到 在 
Follow(E) = {$, +, )} 中 的 超前 搜索 符号 将 会 归 约 ， 而 如 果 看 到 一 个 * 则 会 移 进 。 由 于 超前 搜索 在 这 两 种 
情况 都 解决 了 移 进 - 归 约 冲 突 ， 所 以 Gs 是 SLR(1) 的 。 完整 的 SLR(1)action 表 如 图 6-19 所 示 。 注 意 : 即使 
在 那些 充足 状态 中 也 使 用 了 超前 搜索 符号 。 通 过 利用 这 些 超 前 搜索 符 写 ， 我 们 可 以 比 LR(0) 分 析 器 稍 早 
检测 到 语法 错误 。 然 而 ， 在 充足 状态 中 超前 搜索 符号 可 以 被 忽略 。 这 样 做 使 我 们 可 以 缩减 分 析 表 的 大 小 ， 
这 将 在 6.8 节 中 详细 讨论 。 


6.4.1 SLR(1) 分 析 的 正确 性 


SLR(1) 分 析 器 像 LR(0) 分 析 器 一 样 都 使 用 CFSM。 事 实 上 ， 这 两 种 技术 间 惟 一 真正 的 差别 是 在 
SLR(1) 中 的 产生 式 p 仅 当 超前 搜索 符号 在 p 左 部 符号 的 Follow 集 中 时 才 会 被 归 约 。 我 们 只 需要 证 明 使 用 超 
前 搜索 符号 导致 正确 的 归 约 。 而 证 明 这 一 点 非常 容易 。 | 

当 分 析 某 个 合法 输入 串 z 时 ， 假 定 已 经 进行 了 零 次 或 多 次 归 约 以 获得 右 句 型 QBw ， 其 中 
S 二 ‘waAw 一 maBw， 而 且 进 一 步 First(w) = a。CEFSM 将 移 进 of， 到 达 包 含 项 目 A 一 B 。 的 状态 。 从 推 
导 中 ， 我 们 知道 a € Follow(A), 而 因此 会 发 生 正 确 的 归 约 。 
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图 6-19 Gs 的 SLR(1) action mA 


6.4.2 SLR(1) 技 术 的 局 限 性 


Gs 同时 是 SLR(1) 和 LR(1) 的 。 实 际 上 ， 许 多 LR(1) 文 法 也 是 SLR(1) 的 或 者 能 够 通过 适度 的 努力 被 改 
写 为 SLR(1) 的 。 结 果 是 ， 编 译 器 编写 者 对 于 SLR(1) 分 析 器 有 实际 的 兴趣 。 | 

使 用 Follow 集 来 推测 能 够 预测 归 约 动作 的 超前 搜索 符号 不 如 使 用 合并 到 LR(1) 项 目 中 的 精确 的 超前 
搜索 符号 那么 准确 。 容 易 找 出 是 LR(1) 但 不 是 SLR(1) 的 文法 ， 而 且 在 实践 中 常常 出 现 这 样 的 文法 。 例 如 ， 
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考虑 生成 两 个 或 更 多 元 素 的 列表 的 文法 。 元 素 可 以 是 ID ， 或 者 括号 中 的 ID ， 或 者 列表 。 该 文法 不 允许 单 
个 元 素 的 列表 ， 以 避免 二 义 性 。 
相应 的 文法 G4 是 


Elem ”一 (List, Elem) 
Elem -— Scalar 

List — List, Elem 
List -> Elem 
Scalar — ID 

Scalar - (Scalar) | 


相应 CFSM 的 一 部 分 如 图 6-20 所 示 。 


Elem -~ e(List,Elem) 
Elem 2e X Scalar 
Scalar > 

Scalar — e s Scalar) 














Elem — (eList,Elem) 
Scalar — (e Scalar) 
List — eList,Elem 
List 一 eElem 

Elem -»e(List,Elem) 
Elem —edScalar 
Scalar — e Id 
Scalar — e (Scalar) 







>al Scalar — (Scalar e 
Elem > Saar, 












图 6-20 Gs 的 CFSM 的 一 部 分 


状态 2 是 不 足 的 。 由 于 ) € Follow(Elem), ，SLR(1) 超 前 搜索 符号 不 能 解决 二 义 性 ; 因此 ， 该 文法 不 
可 能 是 SLR(D 的 。 事 实 上 ， 任 意 数量 的 ) 都 能 够 同时 跟随 Scalar 和 Elem ， 因 此 可 以 证 明 对 任意 的 k， 该 文 
法 不 是 SLR(K) 的 。 | | 

当然 ， 可 能 是 该 文法 仅仅 是 难以 分 析 ， 但 仔细 的 研究 表明 并 非 如 此 。 注 意 到 如 果 Elem 一 Scalar 被 
归 约 ， 则 下 一 步 必 定 识别 出 List 一 Elem, 而 且 随 后 从 状态 1 到 达 一 个 仅 能 够 读 入 “,” 的 状态 。 因 此 
LR(1) 超 前 搜索 符号 是 “,”， 而 且 该 文法 片段 是 LR(1) 的 。 

该 例子 说 明了 通过 Follow 集 对 超前 搜索 符号 不 精确 的 计算 会 导致 不 必要 的 分 析 冲突 。 当 发 生 这 样 的 
冲突 时 ， 编 译 器 编写 者 要 么 重 写 文法 的 一 部 分 以 符合 SLR(1) 规 则 ， 要 么 使 用 一 种 更 强大 的 分 析 技术 。 除 
了 所 需 分 析 表 的 大 小 ，LR(1) 文 法 是 显而易见 的 选择 。 在 随后 的 一 节 中 ， 我 们 讨论 LALR(1) 分 析 。 
LALR(1) 拥 有 SLR(1) 的 空间 效率 但 能 够 处 理 更 广泛 的 文法 类 (尽管 不 是 所 有 的 LR(1) 文 法 )。 结果 是 ， 许 
多 编译 器 编写 者 使 用 LALR(1) 分 析 器 而 不 是 SLR(1) 分 析 器 ， 而 且 事 实 上 LALR(1) 是 最 普遍 使 用 的 自 底 同 
上 的 语法 分 析 方 法 。 


6.5 LALR(1) 分 析 


SLR(1) 分 析 器 通过 首先 构造 CFSM ， 随后 通过 计算 Follow 集 确定 超前 搜索 符号 来 创建 相反 ， 
LALR(D) 分 析 器 可 以 通过 首先 构造 一 个 LRCD 分 析 器 并 随后 合并 状态 来 创建 。 特别 地 ，LALR(1) 分 析 器 就 
是 一 个 LR(1) 分 析 器 ， 其 中 仅 有 项 目的 超前 搜索 部 分 不 同 的 所 有 状态 都 已 被 合并 。 LALR 是 超前 搜索 的 
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LR (Look Ahead LR) 的 缩写 。 这 有 点 用 词 不 当 ， 因 为 除 LR(0) 之 外 所 有 的 移 进 - 归 约 分 析 絮 都 使 用 超前 
搜索 符号 。 关 键 是 LALR(1I) 可 被 视 为 向 底层 的 CFESM 添 加 了 超前 搜索 符号 。LALR 分 析 器 在 
DeRemer(1969) 中 首先 提出 。 
考虑 LR(1) 机 器 中 的 任何 状态 s。 该 状态 可 以 通过 简单 地 删除 其 中 所 有 项 目的 超前 搜索 部 分 而 被 惟一 
地 映射 到 相应 CFSM 的 状态 $ 。 因 此 如 果 s 是 | 
A-+ae, {b,c} 
Bae, (d) 
S 将 会 是 


A-ae 
Bae 


通常 该 映射 是 多 对 一 的 (many to one). HS 是 s 的 核心 (core)， 并 使 用 记号 S = Core(s)。 可 以 
通过 结合 LR(1) 机 器 状态 中 所 有 共享 相间 核心 的 项 目 创建 同心 (cognate) LR(1) 项 目 集 。 其 定义 为 
Cognate(s) = {cic € s, Core(s) = 5} 


利用 Cognate 函 数 ， 创 建 称 为 LALR(1) 机 器 的 有 限 自 动机 ， 它 在 结构 上 与 CFSM 是 完全 相同 的 。 即 ， 
LALR(1) 机 器 和 CFSM 将 拥有 恰好 相同 的 项 目 集 和 转换 。 惟 一 不 同 的 是 CFSM 状 态 是 LR(0) 项 目 集 ， 而 
LALR(1) 机 器 状态 是 LR(1) 状 态 集 。 因 为 LR(1) 项 目 包含 超前 搜索 符号 ， 容 易 将 LALR(1) 状 态 投 影 到 可 能 
的 分 析 器 动作 。LALR(1) 投 影 函数 取 一 个 CFSM 状 态 和 一 个 超前 搜索 符号 作为 参数 。 可 将 CFSM 状 态 转 换 
为 它 的 LALR(1) 同 心 状态 ， 并 提取 可 能 的 动作 。 

我 们 有 P : So x Vi 一 22， 其 中 Q 是 可 能 的 移 进 和 归 约 动作 集 。P(s, a) 被 定义 为 : 


(Reduce, | B —p «, a e Cognate(s), and production i is Bp} vu 
(if A — a «ap e s Then {Shift} Else 2) 


GE&LALR(DBS24 H(X 24Vs € So Vae V | P(s, a)| <1. 
如 果 G 是 LALR(D 的 ， 则 可 以 从 P 中 容易 地 提取 action 表 : 


e P(s,$) = (Shifti = actionfs)[$] = Accept 

e P(s,a) = (Shift), ax$ = action[s][a] = Shift 

e P(s,a) = (Reduce) = action[s][a] = Reduce, 

e Pis,a) =Ø = action[s][a) = Error 

作为 示例 ， 让 我 们 回 到 Gas。 考 虑 LR(D) 机 器 ( 见 图 6-16) 的 每 个 状态 ， 并 合并 同心 状态 。LR(1) 状 态 
和 它们 的 LALR(D 同 心 状态 如 图 6-21 所 示 ; 在 合并 同心 状态 后 得 到 的 LALR(1) 机 器 如 图 6-22 所 示 。 





LALR) Cognate State | LR(1) States with Common Core 
State 0 


State 3, State 17 
State 4, State 14 


o 
A^ 


5 —  |Sae5Smeib — 
a — E E 
a —  [SmernSmez — | 
[Smeiz — —  —  [SmeizSmei — t ] 


图 6-21 Gs 的 同 心 状 态 
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aes Po OS 
i T 
; E 2 E+T e {$+} 


T= Terp ,00$+*} 


T> T* eP {$+} | 


Poeid 08+*} | 一 (eE) ($+*) * 
P = e (E) ,{)$+*} M E 一 eE+T .D4- > State 8 
Eset (d —[s: 00 


P 


P—eid ,{)+*} P — (Ee) ,)S+*) 
| Seo | Poe _ ES Eee 4 
T5 T*P e .{)$+*} P LiT + 


{ + ) 
State 7 
P — (E) o .0$«*) 


P State 3 


图 6-22 GS4BJLALR(DELZS 


Gs 的 LALR(1) action 表 与 SLR(1) action 表 相同 。 这 并 不 奇怪 ， 因 为 该 文法 非常 简单 。 
我 们 已 经 看 到 一 个 例子 (G4)， 其 中 需要 更 仔细 的 LALR(1) 超 前 搜索 符号 计算 。 需 要 LALR(DRS 
一 种 普遍 情况 由 文法 Gs 说 明 : 


«stmt». — ID . 
«stmt» — «var» := «expr» 

<var> — ID 

«var» — ID[<expr> J 

<expr> — «var» 


当 利用 <prog> 一 <stmt> 预 测 一 条 语句 时 ， 得 到 如 图 6-23 所 示 的 CFSM 状 态 。 | 


«Prog» > e <Stmt> 
<Stmt> — e ld 
<Stmt> — e «Var» := <Expr> 
«Var» eid 

«Var» — eld[«Expr»] 







图 6-23 Gs 的 CFSM 的 一 部 分 


Bem, BORO. A 

: € Follow(<stmt>) H. 

. € Follow(«var»), Hi T«expr- 一 «var mE | 

因为 从 Follow 集 推导 出 的 超前 搜索 符号 没有 解决 状态 1 中 的 妇 约 - 归 约 冲突 ， 所 以 Gs 不 是 SLR(1) 的 。 
然而 ，LALR(1) 再 次 满足 了 要 求 。 如 果 <var> — ID 被 归 约 ， 则 下 一 步 必须 移 进 :=。 := 和 [都 不 能 跟随 
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<stmt>， 由 此 解决 了 冲突 。 

将 LALR(1) 文 法 改写 为 SLR(1) 形 式 的 一 种 普遍 的 技术 是 引入 一 个 新 的 非 终 结 符 ， 其 全 局 ( 即 ，SLR) 
超前 搜索 符号 更 紧密 地 对 应 于 LALR 的 精确 超前 搜索 符号 。 例 如 ， 在 上 述 文法 中 使 用 该 技术 ， 可 以 将 第 
二 个 产生 式 修 改 为 : 

«simt» — «lhs» := «expr» 

并 随后 添加 两 个 新 的 产生 式 


«Ihs» 一 ID 
«Ihs» — ID [<expr>} 


Follow(<ihs>) = {=}。 以 添加 两 个 新 产生 式 为 代价 ， 该 文法 就 被 改写 成 了 SLR(1) 文 法 。 这 些 例 子 显 
示 在 实践 中 构造 LALR(1) 分 析 器 的 额外 代价 和 复杂 性 是 值得 的 。 

SLR(1) 和 LALR(1) 分 析 器 都 通过 使 用 CFSM 构 造 。 究 竟 是 否 会 发 生 这 样 的 情况 : 无 论 怎么 仔细 地 计 
算 ， 无论 使 用 多 少 超前 搜索 符号 ,没有 action 表 能 够 分 析 直 觉 上 “容易 ”分 析 的 文法 ? 答案 是 肯定 的 
一 一 这 有 了 时 是 由 CFSM 自 身 的 缺陷 所 造成 。 考 虚 Ge: 


S -> (Exp1) 
S 一 [Exp1 ] 
S — (Exp2] 
S — [ Exp2 ) 
Exp1 — ID 
Exp2 — ID 


G, 表 示 表达 式 可 以 由 圆 括 号 或 广 括号 分 隔 的 一 种 语言 。 它 允许 不 匹配 的 分 隔 符 。 不 同 的 表达 式 非 终 
结 符 用 来 允许 对 错误 或 警告 的 诊断 。 相 应 CFSM 的 一 部 分 如 图 6-24 所 示 。 


State 4 


Exp1 一 ld。 
(| Exp2 ide 












S > [eExp! ] 
H So[eExp2) 
Exp! — eid 


Exp2 — eld 
图 6-24 文法 Ge 的 CFSM 的 一 部 分 


状态 4 是 不 足 的 。 但 没有 action 函 数 能 够 解决 它 。 输 入 为 (ID) 时 必须 识别 Exp1 一 ID, ， 而 输入 为 [ID) 
时 必须 识别 Expr2 一 1D。 然 而 , 这 两 者 (ID 和 [ID 都 导致 状态 4， 且 在 这 两 种 情况 下 ) 都 是 超前 搜索 符号 。 
额外 的 超前 搜索 符号 也 于 事 无 补 一 一 在 任意 有 效 输入 中 根本 没有 多 于 一 个 符号 可 以 跟 在 ID 之 后 。 

如 果 构 造 一 个 完整 的 LR(1) 分 析 器 ， 状 态 4“ 分 裂 ” 为 两 个 同心 状态 ， 而 单个 符号 的 超前 搜索 足够 满 
足 要 求 。 这 说 明 LR(1) 能 够 处 理 LALR(1) 所 不 能 处 理 的 文法 。 从 另 一 个 角度 看 ，LALR(1) 对 LR(1) 状 态 的 
合并 有 了 时 是 二 义 的 。 我 们 将 在 6.9 节 中 讨论 其 他 的 LR(1) 状 态 归 约 技术 。 


6.5.1 构造 LALR(1) 分 析 器 


我 们 的 LALR(D 定 义 上 暗示 LRCD 机 器 首先 被 构造 ， 然 后 它 的 状态 被 合并 以 形成 与 CFSM 在 结构 上 一 至 
的 自动 机 。 在 实践 中 这 会 非常 低 效 ， 因 为 我 们 知道 LR(1) 机 器 对 于 用 于 定义 普通 程序 设计 语言 的 文法 可 
以 有 数 万 个 状态 。 另 一 种 方法 是 首先 构造 CFSM。 然 后 LALR(1) 超 前 搜索 符号 从 一 个 项 目 到 另 一 个 项 目 
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“传播 "。 特 别 地 ， 给 每 个 项 目 一 个 初始 为 空 的 超前 搜索 符号 集 (lookahead set)。 依 据 构造 ， 当 完成 传播 
时 集合 中 将 包含 该 项 目的 正确 超前 搜索 符号 。 | 

假定 每 个 项 目 集 同时 包含 基础 项 目 和 闭 包 项 目 。( 严格 地 说 ， 仅 有 基础 项 目 是 必需 的 一 一 闭 包 项 目 
从 基础 项 目 中 计算 出 来 ) 随后 将 那些 一 个 项 目的 超前 搜索 符号 可 以 影响 另 一 个 项 目 超前 搜索 符号 的 所 有 
项 目 都 链接 在 一 起 。 称 这 些 链 为 传播 链 (propagatie link). | 

— A-BR E 6 3 (6 M REEL ERA SEE E ORE — I DLE OR. 因此， 如 果 
有 项 目 A 一 a。Xy, L1， 其 中 1 是 超前 搜索 符号 集 ， 则 创建 一 个 到 项 目 A 一 oX * y, Ls 的 传播 链 。 这 说 明 
Li 中 包含 的 每 个 符号 必须 被 传送 到 ta。 | 

另 一 种 有 了 时 需要 传播 链 的 情况 是 当 一 个 项 目 被 作为 另 一 个 项 目 上 的 闲 包 操作 或 预测 操作 的 结果 被 创 
建 的 时 候 。 这 里 出 现 两 种 子 情况 。 假 定 A 一 * ,Lz 作为 求 B — B * Av, Li 闭 包 的 结果 被 添加 。Lz 可 通过 如 
下 计算 获得 | 

L; = (x|xeFirst(yt) and teL,} 


ix Se AT LAE S AFirst(yL1). 

有 时 Lz 中 的 符号 独立 于 Li 的 值 。 如 果 First(y) 中 不 包含 )， 就 会 发 生 这 种 情况 。 这 样 的 超前 搜索 符号 
被 称 为 是 自发 的 《spontaneous)， 因 为 它们 由 Y 单 独 确定 。 它 们 易于 计算 ， 因 为 不 需要 知道 的 值 。 

在 其 他 时 候 ，First(yLi) 中 的 符号 依赖 于 L 的 值 (y 一 “入 时 )。 这 样 的 符号 被 称 为 传播 的 超前 搜索 
符号 (propagate lookahead), ， 因 为 它们 必须 从 Li 中 传播 出 来 。 链 接 B — P * Ay, Li 和 A — *a, Lz， 当 且 
仅 当 La 能 够 从 L, 接 收 传播 的 超前 搜索 符号 。 当 且 仅 当 Y 一 “和 时 ， 会 发 生 这 种 情况 。 我 们 很 容易 确定 是 否 
Y 一 “入 。 | 

在 构造 了 CEFSM 之 后 ， 可 以 创建 所 有 必要 的 传播 链 来 将 超前 搜索 符号 从 一 个 项 目 传送 到 劝 一 个 。 随 
后 自发 的 超前 搜索 符号 被 确定 。 在 一 个 项 目 集中 ， 可 以 通过 将 其 包含 在 Lz 中 来 完成 。 对 于 项 目 A > a, 
Ls。， 其 所 有 自发 的 超前 搜索 符号 都 从 形 如 B — p * Ay, LIRE SEI. 它们 就 是 First(y) 的 非 和 值 。 如 果 多 
个 项 目 都 能 够 预测 A — « o, Lz， 则 Lz 可 以 从 每 个 可 能 的 预测 值 中 接收 自发 的 超前 搜索 符号 。 

自发 的 超前 搜索 符号 用 作 超 前 搜索 符号 计算 中 的 初始 值 。 我 们 也 将 初始 项 目 的 超前 搜索 符号 集 初 始 


化 为 空 集 。 
随后 通过 传播 链 传播 超前 搜索 符号 。 为 此 将 形 如 (状态 项目， 超前 搜索 符号 ) AY FR HH A Be OBA 
列 中 。 依 次 考虑 每 个 这 样 的 三 元 组 ， 而 超前 搜索 符号 从 指示 的 项 目 和 状态 中 传播 出 来 。 


这 个 栈 初始 化 为 含有 超前 搜索 符号 的 三 元 组 。 随 后 执行 图 6-25 中 所 示 的 算法 。 










while (stack is not empty) 
pop top item, assign its components to (s,c,L) 


if (configuration c in state s 
has any propagate links) ( 
Try, in turn, to add L to the lookahead set of 
each configuration so linked. 
for (each configuration c in state s 
to which L is added) 
Push (3,¢,L) onto the stack. 


图 6-25 LALR(1) 超 前 搜索 符号 传播 算法 
作为 超前 搜索 符号 如 何 传播 的 例子 ， 考 虑 G7: 
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S -Ops$ 
Opts — Opt Opt 
Opt — ID 


为 G1 构造 CFSM， 建 立 传播 链 ， 并 用 自发 的 超前 搜索 符号 来 初始 化 超前 搜索 符号 集 。 这 导致 图 6-26 
所 示 的 情形 、 共 中 只 画 出 传播 链 。 


Opts 一 Opt e Opt ,{} 





Opt eld =f} 
图 6-26 含 传 播 链 的 G7 的 CEFESM 的 一 部 分 


因为 存在 两 个 自发 的 超前 搜索 符号 ， 所 以 我 们 将 两 个 三 元 组 压 入 栈 中 以 开始 计算 。 图 6-27 给 出 在 
图 6-26 的 CFSM 上 传播 超前 搜索 符号 时 所 执行 的 步骤 。 


(1) (s1,c2,$), (s1,c3,ID) Pop (s1,c2,$) 
Add $ to c1 in s2 
Push (s2,c1,$) 
(2) (s2,c1,$), (s1,c3,1D) Pop (s2,c1,$) 
Add $ to c2 in s2 
Push (s2,c2,$) 










(s2,c2,$), (s1,c3,ID) Pop (s2.c2,$) 

Add $ to c1 in s3 

Push (s3,c1,$) 
(s3,c1,$), (s1,c3,ID) Pop (s3,c1,$) 

Nothing is added (no links) 
(s1,c3,ID) -Pop (s1,c3,!D) 

Add ID to ct in s3 

Push (s3,c1,ID) 


(6) (s3,c1,ID) Pop (s3,c1,ID) 
Nothing is added (no links) 
Ernpty Terminate algorithm 











图 6-27 超前 搜索 符号 传播 的 示例 
最 终 的 CFSM 中 所 有 的 超前 搜索 符号 都 已 经 被 传播 ， 如 图 6-28 所 示 。- 







| ae ocr 
Opts eld {$} 


图 6-28 超前 搜索 符号 已 被 传播 的 Gz 的 CFSM 
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为 证 明 超前 搜索 符号 传播 算法 是 正确 的 ， 必 须 证 明 : 

EAE. 

。 它 恰好 传播 正确 的 超前 搜索 符号 集 。 即 ， 超 前 搜索 符号 x 被 添加 到 CFSM 状 态 s 的 项 目 A — ae prb, 

当 且 仅 当 在 LR(1) 状 态 S 存在 项 目 A ->a。B, x， 且 Core( $) = s. 

容易 证 明 该 算法 的 终止 性 。 仅 当 发 现 新 的 超前 搜索 符号 时 ， 才 压 人 新 的 栈 条 目 。 状 态 、 项 目 以 及 可 
能 的 超前 搜索 符号 的 数目 都 是 有 限 的 ， 因 此 只 能 出 现 有 限 数目 的 栈 条 目 。 | 

为 证 明 其 正确 性 ， 首 先 注意 到 自发 的 超前 搜索 符号 必定 是 正确 的 ， 因 为 它们 由 加 点 的 项 目 右 部 惟一 
确定 ， 且 不 受 项 目的 超前 搜索 符号 集 影响 。 类 似 地 ， 由 闭 包 操作 所 添加 的 项 目的 超前 搜索 符号 由 基础 项 
目 惟一 确定 。 也 就 是 说 ， 如 果 基 础 项 目的 超前 搜索 符号 是 正确 的 ， 则 所 有 项 目 集 的 超前 搜索 符号 都 将 是 
正确 的 。 

假定 在 某 LR(1) 状 态 5 中 存在 A 一 a。B, x。 超 前 搜索 符号 x 初始 时 作为 某 状 态 s1 中 自发 的 超前 搜索 
符号 创建 ， 且 随后 通过 一 个 状态 序列 S!，s。，...，So 来 传播 ， 其 中 n> 1 且 sn = S 。 在 x 被 作为 s! 中 自发 的 
超前 搜索 符号 创建 时 ， 它 也 被 创建 于 CFSM 状 态 Core(s1) 中 。 现 在 注意 到 传播 链 类 似 于 x 的 原始 传输 ， 这 
次 是 从 Core(s1) 到 Core(ss) 并 最 终 到 Core(srn)。 这 保证 存在 一 条 到 达 CFSM 状 态 Core(sn) 中 项 目 A 一 a。B 
的 x 的 传送 路 径 。 因 此 ， 传 播 算 法 包含 所 有 LR(1) 状 态 中 的 超前 搜索 符号 。 

为 明白 传播 算法 仅 包含 LR(1) 状 态 中 的 超前 搜索 符号 ， 再 次 注意 初始 时 所 有 超前 搜索 符号 都 是 自发 
的 。 这 些 超前 搜索 符号 一 定 出 现在 所 有 相应 的 LR(LD) 状 态 中 。 因 此 开始 时 ， 如 果 (s, c, Xx) 在 栈 中 ， 则 项 目 
(c, x) 存 在 于 LR(1) 状 态 S 中 ,其 中 Core( S) = s. 传播 表示 LR(1) 超 前 搜索 符号 被 传送 的 方式 。 如 果 跟 
随 一 条 从 (s, c, x) 到 (s', c') 的 链 ， 并 传播 超前 搜索 符号 x， 则 可 以 确定 状态 s' 中 的 一 个 LR(1) 项 目 (c', x), 
其 中 Core( 5) = s'。 因 此 ， 在 每 次 迭代 中 ， 传 播 算法 传递 与 一 个 有 效 LR(1) 项 目 相对 应 的 一 个 超前 搜索 
符号 。 | 

我 们 可 以 期 望 超前 搜索 符号 传播 算法 运行 得 很 快 ， 因 为 它 仅 传播 已 知 为 新 的 超前 搜索 符号 。 然 而 ， 
它 可 能 需要 过 量 的 空间 ， 因 为 有 大 量 的 (状态 , WA, 超前 搜索 符号 ) 三 元 组 。 

另 一 种 变通 的 方法 是 使 用 (状态 , 项 目 ) 偶 对 ， 而 不 是 三 元 组 。 向 每 个 项 目 中 添加 一 个 标志 以 指示 处 


于 特定 状态 的 该 项 是 是 否 处 于 栈 中 等 候 处 理 。 如 果 一 个 符号 被 添加 到 项 目 的 超前 搜索 符号 中 ， 且 其 标志 


为 假 ， 则 压 入 一 个 (状态 , 项 目 ) 偶 对 且 将 该 标志 设置 为 真 。 

当 弹 出 一 个 (s，c) 偶 对 时 ， 将 状态 s 中 c 的 标志 设置 为 假 ， 并 试图 传播 c 的 所 有 超前 搜索 符号 。 XC 
了 空间 ， 因 为 (在 最 坏 情 况 下 ) 有 较 少 的 侦 对 需要 被 压 信 栈 中 ， 但 需要 更 多 时 间 ， 因 为 可 能 需要 试图 多 
次 传播 一 个 超前 搜索 符号 。 

许多 LALR(1) 分 析 器 生成 器 使 用 超前 搜索 符号 传播 来 计算 分 析 器 的 action 表 。 在 6.7.1 节 中 描述 的 
LALRGen 生 成 器 使 用 在 (状态 ， 项 目 ， 超 前 搜索 符号 ) 三 元 组 本 上 运行 的 传播 算法 。Yacc 不 使 用 栈 
(Aho and Ullman 1977, p. 241)， 而 是 依次 访问 每 个 项 目 集 ， 并 且 所 有 超前 搜索 符号 都 从 集合 中 传播 出 
去 。 此 操作 将 持续 到 所 有 项 目 集 都 被 访问 而 没有 任何 新 的 超前 搜索 符号 被 传播 为 止 。 

传播 LALR 超 前 搜索 符号 的 另 一 个 颇具 吸引 力 的 方法 是 通过 对 CFSM 的 反 向 搜索 按 需 计算 它们 。 印 ， 
不 是 以 正 向 将 超前 搜索 符号 传播 到 所 有 状态 ， 而 是 等 到 找 出 一 个 需要 超前 搜索 符号 信息 的 状态 为 止 。 

假定 状态 s 中 的 项 目 A 一 o * 需 要 超前 搜索 符号 。 按 照 定义 ， 超 前 搜索 符号 是 在 执行 了 正 被 讨论 的 归 


? 


约 A — o 之 后 可 能 被 移 进 的 符号 。 为 确定 可 能 的 超前 搜索 符 , 可 以 通过 从 s 回 退 到 预测 A 一 。a 的 状态 
并 随后 检查 它们 面临 A 的 后 继 来 “模拟 ”该 归 约 。 例 如 ， 考 虑 图 6-29。 在 状态 3 中 ， 想 要 指示 A 一 DH 
约 的 超前 搜索 符号 。 假 如 执行 了 该 归 约 ， 将 会 从 栈 中 弹出 状态 3。 状态 1 或 状态 4 将 会 是 新 的 栈 顶 ， 而 且 
在 移 进 A 之 后 ， 将 处 于 状态 2 或 状态 5。 由 于 在 这 些 状态 中 仅 有 ) 和 ] 可 以 被 移 进 ， 因 此 这 两 个 符号 是 对 于 
状态 3 中 的 归 约 A 一 ID 仅 有 的 正确 的 超前 搜索 符号 。 
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图 6-29 使 用 反 向 搜索 分 析 的 CFSM 


把 s 面 临产 生 式 A 一 ac 的 妇 约 后 继 (reduction successor) 定义 为 如 果 在 状态 s 中 进行 归 约 A 一 a 可 以 
达到 的 CFSM 状 态 集 ， 以 succ(s, A > a) 表 示 。 如 果 一 个 终结 符号 可 以 从 succ(s, A 一 o) 的 某 个 状态 被 
移 进 ， 则 它 指示 状态 s 中 A > a 的 归 约 。 

可 能 出 现 这 样 的 情形 : 在 succ(s, A > oj) 的 一 个 状态 s 中 ， 另 一 个 归 约 也 是 可 能 的 。 例 如 ，s 可 能 
包含 项 目 B 一 BA。。 在 这 种 情况 下 ， 在 同时 出 现 于 succ(s, A 一 a) 和 succ(s', B 一 BA) 的 状态 中 检查 可 
被 移 进 的 终结 符 。 通常, 无论 何 时 当 后 继 集中 的 某 个 状态 包含 可 能 的 归 约 时 ,该 状态 的 后 继 也 会 被 考虑 。 
这 表示 在 移 进 超前 搜索 符号 前 进行 一 系列 归 约 的 情况 。 

利用 后 继 状 态 来 确定 超前 搜索 符号 的 思想 看 起 来 直截了当 ， 但 存在 缺陷 ， 尤 其 是 涉及 和 产生 式 时 。 
例如 ， 考 虑 图 6-30 所 示 的 CFSM 状 态 s。 

BoeAd 


A — eC 
CoAe 


图 6-30 一 个 可 能 导致 反 向 搜索 分 析 失 败 的 CFSM 状 态 


如 果 想 要 C 一 入 。 的 超前 搜索 符号 ， 需 要 计算 succ(s, C — 入 )， 也 就 是 go_to[sj[C] = s'。 因 为 s 包含 
A — C .， 所 以 考虑 succ(S, A 一 C*)。 这 将 产生 问题 ， 因 为 succ(s', A 一 C*) 可 能 包含 除 90_tolsj[Aj 之 
外 的 状态 。 难 点 是 s' 可 能 含有 除 s 之 外 的 前 驱 ， 而 且 这 些 前 驱 在 计算 succ 时 会 被 考虑 。 然 而 ， 我 们 开始 
于 s， 因 此 不 应 当 包 含 S' 的 其 他 前 驱 。 

在 使 用 反 向 搜索 方法 的 LALR 实 现 中 通常 不 考虑 该 问题 。 结 果 ， 使 用 反 向 搜索 的 实现 通常 不 能 正确 
地 处 理 所 有 LALR 方 法 ， 而 被 称 为 NQOLALR (not quite LALR ， 不 完全 LALR )。 

正确 地 实现 反 向 搜索 方法 的 办 法 在 文献 (DeRemer and Pennello，1982) 中 讨论 。 尽 管 使 反 向 搜索 
方法 变 得 正确 需要 一 些 技巧 ， 但 它 确 实 有 要 求 较 少 的 总 工作 量 的 优点 ， 这 会 导致 语法 分 析 器 生成 器 速度 
的 极 大 提高 。 


6.5.2 LALR(1) 分 析 的 正确 性 


证 明 LALR(1) 分 析 的 正确 性 非常 直截了当 。 采 取 LALR(1) 就 是 LR(1) 经 过 状态 合并 的 版 本 这 样 一 种 
观点 ， 这 两 种 技术 怎么 会 不 同 ? 在 某 些 情况 下 合并 LR(1) 状 态 形成 LALR(1) 状 态 会 引入 分 析 器 动作 冲突 。 
这 意味 着 并 非 所 有 的 LR(1) 方 法 都 是 LALR(1) 的 。 如 果 状 态 合并 不 引入 冲突 ， 则 对 于 正确 的 输入 ， 
LALR(1) 将 表现 得 与 LR(1) 完 全 相同 ， 而 我 们 已 经 知道 如 何 证 明 LR(1) 是 正确 的 。 

对 于 不 正确 的 输入 ，LALR(1) 可 能 做 出 错误 的 归 约 。 这 并 不 是 真正 的 问题 ， 因 为 底层 CFSM 仅 接受 
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活 前 级 。 也 就 是 说 ， 用 作 超 前 搜索 符号 的 不 正确 的 输入 符号 ， 可 能 导致 不 适当 的 归 约 ， 但 它 自身 不 可 能 
被 移 进 。 错 误 检测 的 轻微 延迟 仅 在 进行 错误 修复 时 才 会 成 为 问题 (不 正确 的 归 约 不 应 当 被 完成 )。 该 困 
难 的 解决 办 法 在 第 17 章 中 讨论 。 


6.6 在 移 进 - 归 约 分 析 器 中 调用 语义 例 程 


在 LL(1) 分 析 器 中 ， 动 作 符 号 对 应 语义 例 程 。 当 在 产生 式 中 遇 到 动作 符号 时 ， 将 暂停 分 析 ， 并 调用 
适当 的 语义 例 程 。 在 移 进 - 归 约 分 析 器 中 ， 情 况 更 为 复杂 。 难 点 是 移 进 - 归 约 分 析 器 不 是 预测 性 的 ， 因 此 
直到 产生 式 完 整 的 右 部 都 被 匹配 之 前 ， 不 总 是 能 够 确定 正在 识别 哪个 产生 式 。 然 而 ， 对 于 分 析 且 的 来 说 ， 
这 是 一 个 优点 ， 因 为 它 允 许 移 进 - 归 约 分 析 器 在 做 出 选择 前 检查 更 多 的 输入 。 事 实 上 ， 移 进 - 归 约 分 析 器 
通常 能 够 比 LL(1) 分 析 器 处 理 更 大 的 文法 类 ， 这 也 是 它们 普及 的 一 个 主要 原因 。 

如 以 前 所 注意 到 的 那样 ， 对 于 移 进 - 归 约 分 析 器 所 提供 的 通用 性 必须 付出 的 代价 是 仅 在 产生 式 被 识 
别 并 归 约 之 后 才能 调用 语义 例 程 。 这 相当 于 仅 人 允许 动 作 符号 处 在 产生 式 右 部 的 最 右 端 。 然 而 ， 该 限制 并 
不 像 最 初 看 起 来 那么 严重 。 事 实 上 ， 已 知 两 种 普通 的 技巧 可 以 允许 语义 例 程 调用 位 置 有 更 多 灵活 性 。 例 
如 ， 考 虑 一 个 生成 条 件 语句 的 产生 式 : 


<stmt> — if <expr> then <stmts> else <stmts> end if 


需要 在 条 件 表达 式 else 和 end if 被 匹配 后 调用 语义 例 程 。 如 果 使 用 移 进 - 归 约 分 析 器 的 话 ， 我 们 无 
法 把 动作 符号 放 在 必要 的 位 置 。 然 而 ， 为 扮演 动作 符号 的 角色 ， 可 以 创建 新 的 生成 的 非 终结 符 。 例 如 ， 
可 以 创建 下 列 非 终结 符 : 


<Stmt> 一 if <expr> «test cond> 
then <stmts> <process then part> 
else <stmts> end if ; 

<test cond> -> À 

<process then part> 一 入 


当 识 别 <test cond> 或 <process then part> 时 ， 将 调用 适当 的 语义 例 程 ， 以 模拟 动作 符号 的 效果 。 

用 生成 和 的 非 终 结 符 来 替换 动作 符号 并 不 像 看 起 来 那么 简单 、 在 某 些 分 析 上 下 文中 ，、 “可 能 有 多 个 石 
部 需要 考 虚 。 如 果 产 生 式 右 部 所 要 调用 的 语义 例 程 不 同 ， 则 语法 分 析 器 将 无 法 正确 确定 调用 哪个 例 程 。 
如 果 生 成 和 的 非 终结 符 被 用 于 调用 语义 例 程 ， 则 这 种 二 义 性 会 表现 为 分 析 冲 突 。 例 如 ， | 


«simt» — if «expr» «test condi» 
then «stmts» «process then part» 
else «stmts» end if ; 

<stmt> 一 İf <expr> «test cond2> 
then <stmts> «process then part» 
end it ; 

<test cond1> >A 

<test cond2> >À 


«process then part> — A 


在 if <expr> 被 分 析 之 后 ， 语 法 分 析 器 无 法 确定 是 识别 <test cond1> 还 是 <test cond2>。 这 反映 了 相 
互 竞争 的 产生 式 调 用 两 个 冲突 的 语义 例 程 这 一 事实 。 

除 使 用 生成 和 的 非 终结 符 外 ， 另 一 种 方法 是 把 一 个 产生 式 拆 分 为 许多 部 分 ， 其 中 拆 分 点 位 于 需要 语 
义 例 程 的 地 方 。 例 如 ， 先 前 的 例子 可 被 改写 为 : 

«stmt» 一 «if head» «then part» «else part» 

«if head> 一 if <expr> 

«then part> — then <stmts> 

«else part» — — else «stmts» end if ; 


该 方法 会 使 产生 式 难以 阅读 ， 但 有 不 需要 产生 式 的 优点 。( 早 期 的 移 进 - 归 约 分 析 器 无 法 处 理 产 
生 式 ， 现 代 技 术 则 能 够 处 理 。) 
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67 使 用 语法 分 析 器 生成 器 


在 本 节 中 讨论 两 种 流行 的 LALR(1) 分 析 器 生成 器 LALRGen 和 Yacc。LALRGen 和 Yacc 的 完整 总 结 分 
别 见 附录 D 和 Johnson (1975)。 我 们 的 讨论 举例 说 明 上 下 文 无 关 产 生 式 、 动 作 符号 及 相关 信息 是 如 何 被 
呈现 给 分 析 器 的 生成 器 并 被 其 利用 。 学 习 分 析 器 生成 器 使 用 的 最 好 方法 是 从 这 里 给 出 的 简单 示例 开始 并 
随后 逐渐 推广 它们 来 解决 手头 上 的 问题 。 


6.7.1 LALRGen 语 法 分 析 器 生成 器 


LALRGen 是 一 个 LALR(1) 分 析 器 生成 器 ， 它 接受 上 下 文 无 关 文 法规 范 并 产生 分 析 指 定语 言 的 分 析 
表 。LALRGen 由 威斯康辛 大 学 麦迪 逊 分 校 的 Jon Mauney 编 写 。 

LALRGen 的 输入 

LALRGen 的 输入 主要 有 三 节 : 运行 所 需 的 选项 、 文法 的 终结 符号 以 及 文法 的 产生 式 规则 。 输 入 的 
一 般 形式 为 ; 

注释 

*ecp 

选项 

*define 

常量 定义 

*terminals 

终结 符号 定义 

*productions 

产生 式 定 义 

*end 

注释 

180 Micro 的 一 个 示例 规范 在 图 6-31 中 给 出 。 


*ecp 

bnf vocab 
statistics noerrortables parsetables 
*define 
start 
finish 
push id 
assign 
read id 
write expr 
gen infix 


copy expr 
push lit 
push op 


Foe AKU Whe 


*terminals 





*productions 


图 6-31 Micro 的 LALRGen 规 范 
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«program» ::- begin «start» «statement list» end ## finish 
, «start» : :一 #8 start 

«statement list»  ::- «statement list> «statement» 

«statement list» ::= «statement» . 

«statement» ::- ID «push id^» := «expression? ; $46 assign 


«statement» ::- read ( «id list» ) ; 
«statement» ::- write ( «expr list» ) ; 
«push id» 
«id list» 
«id list> :D:m «id list» , 
«expr list» ::- «expression» ## write expr 
«expr list» ::- «expr list» , «expression» (8$ write expr 
«expression» ::* «expression» <add op» «primary» ## gen infix 
:D:- «primary» ## copy expr 
::- ( <expression> ) ## copy expr 
: := ID ## push id 
::- INTLITERAL ## push lit 
::@ + ## push op 
::- — ## push op 


图 6-31 (2%) 


符号 

符号 由 任意 可 打印 字符 的 序列 组 成 ; 它们 以 空白 、 制 表 符 或 行 结束 符 分 隔 。 符 号 中 不 能 含有 空 捍 或 
制 表 符 ， 除 非 该 符号 以 尖 括 号 < 和 > 包围 。 如 果 一 个 符号 以 < 开头 ， 则 它 必须 以 > 结尾 。 
注释 

在 *ecp 之 前 或 t+end 之 后 的 任何 东西 都 被 认为 是 注释 并 将 被 忽略 。 然 而 ， 注 释 中 不 能 包含 上 述 两 个 
保留 记号 。 注 释 也 可 以 被 置 于 任意 一 行 的 结尾 ， 在 记号 -- 和 行 结束 符 之 间 的 所 有 文本 将 会 被 忽略 。 
选项 | 

跟随 在 *ecp 之 后 是 一 列 零 个 或 多 个 选项 的 列表 ， 以 空白 、 制 表 符 或 行 结 束 符 分 隔 。 选 项 控制 产生 
的 表 的 种 类 以 及 打印 的 信息 类 别 。 可 用 选项 的 完整 描述 见 附录 成 中 的 LALRGen 用 户 手 册 。 
常量 定义 

常量 定义 节 是 可 选 的。 如 果 存 在 ， 它 以 保留 记号 *define 开 始 ， 由 一 列 定义 组 成 ， 每 个 定义 都 占 单 
独 一 行 。 每 个 定义 的 形式 为 

<const name> <integer value> 
其 中 <const name> 是 上 面 所 描述 的 记号 , 而 <integer value> 是 无 符号 整数 〈 仅 包含 数字 的 记号 )。 随 后， 
该 整数 可 以 被 用 于 任何 需要 整数 常量 的 地 方 : 在 随后 的 常量 定义 中 以 及 对 于 语义 例 程 编号 。 
终结 符 


单独 一 行 。 所 有 终结 符 都 必须 出 现在 该 列表 中 。 应 当 对 终结 符 进 行 排序 ， 以 使 得 所 分 配 的 序号 与 词法 分 
析 器 所 使 用 的 整数 代码 一 致 。 也 就 是 说 ， 如 果 end 的 词法 记号 代码 是 4， 则 end 应 当 在 终结 符 列表 中 第 4 
个 出 现 。 一 个 好 习惯 是 使 用 选项 vocab 列 出 分 配给 终结 符 的 整数 代码 。 应 当 把 这 些 代码 与 词法 分 析 器 产 
生 的 代码 比较 ， 以 确定 编号 是 一 致 的 。 
产生 式 

记号 *productions 分 隔 终 结 符 与 产生 式 。 产 生 式 由 一 组 规则 指定 ， 每 条 规则 占 单 独 一 行 。 产 生 式 
规范 的 形式 为 


<ihs> ::= <rhs> «action Symbol> 





保留 记号 *terminals 开 始 一 列 终结 符号 。 终 结 符号 规范 节 由 这 样 的 一 列 规范 组 成 ， 每 条 规范 都 局 





符号 “::=” 是 “一 ”的 同义词 ， 而 “一 ”在 大 多 数字 符 集中 不 可 用 。<ihs>、<rhs> 和 <action 


symbol> 中 任何 一 个 都 可 以 不 存在 。<ihs> 是 一 个 表示 非 终 结 符 的 符号 。 如 果 它 不 存在 ， 则 使 用 前 面 产 
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生 式 左 部 的 文法 符号 。<rhs> 是 一 个 包含 该 产生 式 文法 符号 的 词法 记号 串 。 如 果 <rhs> 不 存在 ， 则 <ihs> 
推导 出 空 串 入。<rhs> 可 以 通过 使 随后 的 行 以 保留 记号 “.…” 开 始 来 续 行 〈 仅 有 产生 式 可 以 这 样 续 行 )。 
«action Symbol> 的 形式 为 办 <number> ， 它 指定 当 识 别 产 生 式 时 要 调用 的 语义 例 程 。<number> 是 一 个 
无 符号 整数 或 已 经 定义 的 常量 。 如 果 它 不 存在 ， 则 使 用 零 。 如 6.6 节 中 所 讨论 的 ， 不 在 产生 式 最 右 端 的 
动作 符号 的 效果 可 能 通过 创建 新 的 非 终结 符号 和 包含 所 要 的 动作 符号 的 和 产生 式 来 获得 。 
结束 符 

产生 式 列表 以 *+end 结 束 。 在 所 有 产生 式 都 被 处 理 之 后 ， 添 加 拓 广 产生 式 。 两 个 符号 <goal> 和 $$$， 
以 及 一 个 产生 式 : 


«goal» ::= «s» $$$ 


被 添加 到 文法 中 ， 其 中 <s> 是 列表 中 第 一 个 产生 式 的 左 部 ，<goal> 是 开始 符号 ， 而 $$$ 是 结束 标记 。 拓 
广 产 生 式 被 分 配 以 一 个 代码 为 -1 的 动作 符号 。 
LALRGen 的 输出 

分 析 表 格式 的 详细 描述 见 LALRGen 用 户 手册 。LALRGen 的 输出 所 提供 的 信息 包括 : 

。 尺 寸 参数 。 包 括 CFSM 状 态 的 数量 ， 文 法 符号 的 数量 以 及 产生 式 的 数量 。 

。 组 合 的 go_toy/action 表 。 单 个 的 归 约 状态 已 经 被 删除 ( 见 6.8 节 ) ， 因 此 有 三 类 非 错误 条 目 : 
go_to 状 态 、Reduce 动 作 以 及 SingleReduce 动 作 。 对 于 拓 广 产生 式 ，Accept 动 作 被 表示 为 一 个 
SingleReduce 动 作 。 

* 每 个 产生 式 右 部 的 长 度 。 

。 每 个 产生 式 的 左 部 符号 。 

。 每 个 产生 式 动 作 符号 的 数量 。 

。 文 法 中 所 有 符号 的 符号 化 表示 。 | 

。 每 个 CFSM 状 态 的 条 目 符号 〈 即 ， 为 到 达 该 状态 所 移 进 的 符号 ) 。 语 法 分 析 并 不 实际 需要 这 些 ， 但 
它 在 错误 报告 和 修复 中 非常 有 用 。 


6.7.2 Yacc 


Yacc 是 一 个 LALR(1) 分 析 器 生成 器 ， 它 由 AT&T 贝 尔 实验 室 的 S.C.Johnson 等 人 开发 。Yacc 是 “Yet 
another compiler-compiler”( 另 一 个 编译 器 的 编译 器 ) 的 同 义 语 。 严 格 地 说 ，Yacc 并 不 是 一 个 编译 器 的 
编译 器 ， 因 为 它 生 成 可 集成 的 语法 分 析 器 ， 而 不 是 完整 的 编译 器 。 然 而 ， 它 确实 为 语义 栈 操纵 和 语义 例 
程 规范 做 了 准备 ， 这 也 就 提供 了 一 个 典型 编译 器 的 大 部 分 结构 。Yacc 也 生成 C 语 言 例 程 文件 :因此 ， 它 
大 多 用 于 运行 UNIX 操 作 系 统 的 机 器 上 。Yacc 可 以 使 用 由 Lex 生 成 或 用 C 语 言 手 工 编写 的 词法 分 析 问 。 

Yacc 的 输入 形式 为 

声明 

43 

PER 

各 名 

子 例 程 
其 中 %% 分 隔 规 范 中 的 各 节 。 

第 一 节 包 含 多 种 声明 ， 其 中 最 重要 的 是 词法 记号 ( 即 ， 终结 符号 ) 列表 。 词 法 记号 可 以 是 符号 名 
(以 字母 打头 ， 可 能 包含 数字 、 点 和 下 划 线 ) 或 由 引号 引用 的 字符 文字 常量 (例如 ， “+ 或 “- )。 命 名 
的 词法 记号 必须 被 声明 以 区 别 于 非 终结 符号 ; 由 引号 引用 的 文字 常量 可 以 可 选 地 声明 。 声 明 所 有 的 词法 
记号 是 一 个 好 主意 ， 既 可 用 于 文档 整理 目的 ， 又 可 以 辅助 与 词法 分 析 器 的 同步 。 
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词法 记号 声明 的 形式 为 

token tokenl integerl token2 integer2 . 

跟 在 每 个 词法 记号 后 面 的 整数 定义 了 由 词法 分 析 器 所 使 用 的 该 记号 的 代码 。 结束 标记 必须 有 一 个 零 
值 或 负 值 ; 所 有 其 他 词法 记号 必须 有 正 的 代码 。 

词法 记号 代码 的 分 配 是 可 选 的 ， 没 有 被 分 配 显 式 代码 的 词法 记号 可 以 接受 它们 的 字符 代码 (如 果 它 
是 一 个 单 引 号 中 的 字符 )， 也 可 以 接受 一 个 从 257 开 始 的 值 ， 这 个 值 对 每 个 未 赋值 的 词法 记号 是 递增 的 。 
文件 y.tab.h 中 包含 词法 代码 分 配 ， 可 以 由 Yacc 可 选 地 创建 。 一 个 好 的 做 法 是 比较 由 Yacc 采 用 的 词法 记号 
分 配 和 由 词法 分 析 器 产生 的 那些 分 配 ， 以 确定 它们 是 一 至 的 。 这 可 以 通过 让 词法 分 析 器 包含 y.tab.h 文 件 
并 使 用 其 中 所 包含 的 定义 来 自动 完成 。 

其 他 声明 包括 C 语 言 的 类 型 、 变 量 和 子 例 程 原型 ， 还 有 开始 符号 的 名 字 以 及 运算 符 优先 级 和 结合 性 
声明 (用 于 二 义 文法 ， 见 6.7.3 市 )。 

产生 式 节 定义 要 被 分 析 的 文法 。 产 生 式 的 形式 为 

A: Bl -: -- BN; 
其 中 R 是 产生 式 的 右 部 符号 ， 而 B1… .是 零 个 或 多 个 终结 符号 或 非 终结 符号 。 产生 式 可 以 跨越 多 行 
以 一 个 分 号 终止 。 共 享 相 同 左 部 符号 的 一 系列 产生 式 可 以 写成 


A : BL - -- BN 
Ce ” - > CM 


第 一 个 产生 式 的 左 部 被 作为 开始 符号 ， 除 非 在 声明 节 出 现 一 个 形 如 %start startsym 的 指示 命令 。 
在 Yacc 中 ， 以 C 代 码 编写 并 由 {和 } 界 定 的 语义 例 程 与 产生 式 规则 混合 在 一 起 。 因 为 底层 语法 分 析 器 是 
LALR(1) 的 ， 语 义 例 程 代码 通常 出 现在 产生 式 的 末尾 。 例 如 : 

stmt : STOP ';' ( gen("halt", "", "", ""); ) ; 

Yacc 也 维护 一 个 语法 分 析 器 控制 的 语义 栈 并 提供 方便 的 形式 来 访问 与 产生 式 相 关联 的 值 。 符 号 $$ 
表示 产生 左 部 的 语义 栈 值 ，$1,$2, . . .表示 产生 式 右 部 的 语义 栈 值 ， 从 左 向 右 编号 。 语 义 栈 值 默认 为 整 
型 ， 但 Yacc 根 据 需 要 创建 联合 (union) 类 型 以 保证 类 型 相 容 性 。 例 如 ， 可 以 使 用 下 列 代码 为 中 组 加 法 
生成 代码 : | 

Exp : Exp '*' Term 

( get temp(n); 


gen("plus", $1, $3, n): 
$$ =n; }; 


语义 例 程 代码 也 可 以 播 入 到 产生 式 右 部 中 间 ， 只 要 知道 它 不 会 与 其 他 产生 式 发 生 混 消 。 这 些 语义 例 


程 被 视 为 动作 符号 并 可 以 访问 和 更 新 语义 栈 。 

Yacc 规 范 的 最 后 一 节 包 含 语法 分 析 器 所 需 的 子 程序 ; 在 该 节 中 必须 提供 一 个 名 为 YYlex( ) 的 分 析 
器 ， 也 可 以 把 它 作为 外 部 子 例 程 提供 。 如 果 一 个 语义 动作 需要 多 条 语句 ， 最 好 把 它 封装 为 一 个 子 例 程 ， 
而 在 产生 式 一 节 中 仅 包含 对 该 子 例 程 的 调用 。 

作为 示例 ， 简 单 Micro 编 译 器 的 Yacc 定 义 示 于 图 6- -32 中 。 该 定义 直接 摘自 第 2 章 。 第 2 章 中 的 文法 是 
LL(1) 形 式 的 ; 在 这 时 已 经 被 改写 为 LALR(1) 形 式 。 这 并 非 绝 对 必要 ， 因 为 实际 上 所 有 LL(1) 文 法 也 都 是 
LALR(1) 的 。 然 而 ， 修 改过 的 文法 更 好 地 说 明了 在 自 底 向 上 分 析 中 通常 所 使 用 的 结构 ， 尤其 是 左 递 归 
产生 式 的 频繁 使 用 ， 而 这 在 自 顶 向 下 的 语法 分 析 器 中 是 禁止 使 用 的 。 


6.7.3 可 控 二 义 性 的 使 用 和 误 用 
所 有 类 型 的 语法 分 析 器 生成 器 都 拒绝 二 义 文法 ， 因 为 它们 会 导致 不 确定 的 分 析 决 策 。 然 而 ， 研 究 表 
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Hj: 如 果 受 挖 的 话 ， 二 义 性 在 为 真正 的 程序 设计 语言 产生 高 效 的 语法 分 析 器 方面 是 有 价值 的 (Aho， 
Johnson, and Ullman 1975), 





















$token BEGIN 10 END 11 ID 1 ASG 3 "+" 6 


Stoken ';' 5 READ 12 '('!8 '")' 9 '-' 7 
stoken WRITE 13 ',! A INTLITERAL 2 
$5 


program : BEGIN { start(); } 
statement list END { finish(); } 


statement list : statement list statement 
| statement 






statement : ID ( $$ = push id(); ) 
ASG expression ';' ( assign($2, $4); ) 
| READ ' ("^ id list ')' ';' 
| WRITE , { expr list ry’ di 


id list : ID { read id():; } 
| id list ',' ID  ( read_id(); } 


expr list : expression t write_expr ($1) ; } 
| expr list ‘,’ expression 
{ write_expr ($3); } 


expression : expression add op primary 
( $$ = gen infix($1, $2, $3); } 
| primary 


primary : '(' expression ')' ($$ = $2; } 
| ID { $$ = push id(); } 
| INTLITERAL { $$ = push 1it(); ) 












* This section has been elided for brevity. In a 
* complete definition it will contain the definition 
* of action and support routines, from Chapter 2. 


*/ 






图 6-32 MicroffJ YaccHL 76, 


在 极 少 的 情况 下 由 于 不 存在 非 二 义 文法 而 使 得 二 义 性 对 于 分 析 一 个 程序 结构 是 绝对 必需 的 。 该 问题 
最 著名 的 例子 是 Algol 60 和 和 Pascal 的 悬空 else 问 题 。 已 知 LL(1) 文 法 无 法 确定 性 地 生成 if-then 和 if-then- 
else 语 句 。 按 照 语 义 规 则 的 需要 ， 其 中 的 else 子 名 与 最 近 未 匹配 的 then 子 句 匹配 。 

确实 存在 能 够 正确 处 理 悬 空 else 问 题 的 LALR(1) 文 法 ， 但 它们 不 容易 产生 。 显 而 易 见 ， 产 生 去 


Stmt — if Expr then Stmt 
Stmt — if Expr then Stmt else Stmt 


会 出 问题 ， 因 为 例如 在 if A then if B then C else C+, else 可 以 和 两 个 then 中 的 任意 一 个 匹配 。 这 其 
中 的 窍门 是 把 第 二 个 产生 式 修 改 成 下 列 形式 

Stmt > if Expr then RestrictedStmt else Stmt 
其 中 RestrictedStmt 能 够 生成 除 if-then 结 构 外 的 任意 语句 。 

如 果 能 够 以 某 种 方式 控制 其 二 义 性 的 话 ， 这 里 给 出 的 简单 但 有 二 义 性 的 产生 式 可 以 被 使 用 。 在 
LALRGen 中 ， 如 果 选 项 resolve 是 沼 活 的 ， 则 产生 式 按 其 出 现 的 顺序 被 台 了 予 优先 级 ， 第 一 个 指定 的 产 
让 式 被 赋予 最 高 优先 级 。 因 此 ， 如 果 把 上 面 if-then-else 的 产生 式 重新 排序 为 
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Stmt — if Expr then Stmt else Stmt 
Stmt 5 if Expr then Stmt 


则 移 进 - 归 约 冲突 将 通过 优先 支持 第 一 个 产生 式 ， 即 把 else 与 最 近 出 现 的 if 匹配 而 解决 。 两 个 含有 相同 
底层 产生 式 的 项 目 间 的 冲突 将 通过 优先 进行 归 约 来 解决 。 这 意味 着 二 义 文法 


E+ E+E 
E — ID 


将 正确 地 分 析 涉及 + 和 ID 并 强制 左 结合 的 表达 式 ， 因 为 将 总 是 优先 选择 归 约 而 不 是 移 进 。 

Yacc 也 人 允许 二 义 产 生 式 (在 警告 了 用 户 之 后 ) ， 并 提供 下 列 二 义 分 析 选 择 的 解决 方案 : 

。 遇 到 移 进 - 归 约 冲突 时 ， 进 行 移 进 。 

。 遇 到 归 约 - 归 约 冲突 时 ， 归 约 在 文法 规范 中 先 列 出 的 产生 式 。 

在 if-then 和 if-then-else 结 构 的 简单 文法 中 ， 第 一 条 规则 正 是 进行 适当 的 匹配 所 需要 的 。 特 别 地 ， 
我 们 想 要 尽快 地 匹配 一 个 else， 移 进而 不 是 归 约 可 以 完成 这 项 任务 。 

在 这 种 情况 下 ， 允 许 受 控 的 二 义 性 提供 了 比 无 二 义 的 LALR(1) 分 析 器 所 能 够 接受 的 更 简单 的 文法 。 
然而 ， 在 允许 二 义 性 时 需要 付出 代价 。 作 为 语法 分 析 器 的 用 户 ， 通 常 不 必 关心 它 如 何 工 作 一 一 它 所 找 出 
的 任意 分 析 都 是 正确 的 分 析 。 但 当 人 允许 二 义 性 时 ， 必 须 理解 消除 二 义 性 的 机 制 如 何 工作 ， 而 这 需要 关于 
语法 分 析 器 和 所 使 用 的 语法 分 析 器 生成 器 的 知识 。 我 们 不 再 纯粹 地 通过 其 所 分 析 的 文法 来 指定 语法 分 析 
器 ， 而 是 显 式 地 包含 辅助 规则 来 消除 文法 中 的 冲突 。 | | 

受 控 二 义 性 的 使 用 在 规定 程序 设计 语言 表达 式 中 有 极 大 的 优势 。 非 终结 符号 和 产生 式 的 层次 被 用 于 
为 运算 符 优 先 级 和 结合 性 编码 。 该 编码 极 大 地 增加 了 文法 和 分 析 表 的 大 小 。 进 一 步 ， 如 6.8 节 中 所 讨论 
的， 一 系列 单位 归 约 会 降低 分 析 速度 。 MEM 

Yacc 介 许 从 文法 中 删除 操作 符 优先 级 和 结合 性 规则 并 提供 显 式 的 指示 来 代替 。 表 达 式 可 以 通过 高 度 
二 义 性 的 产生 式 推 导出 来 : 


Expr — Expr BinaryOp Expr 
Expr 一 UnaryOp Expr 


结合 性 在 声明 节 中 由 %1left、%right 和 %nonassoc 指 定 。 大 多 数 二 元 运算 符 ( 像 +、-、* 和 /) 都 
是 大 结合 的 〈 即 ， 它 们 从 左 向 右 分 组 )。 少 数 运算 符 (如 指数 运算 符 ) 是 右 结合 的 ， 还 有 少数 运算 符 
(典型 的 如 关系 运算 符 ) 根本 不 可 结合 。 

运算 符 被 赋予 结合 性 的 次 序 表 明了 它们 的 优先 级 ， 首 先 出 现 的 运算 符 优先 级 最 低 ， 最 后 出 现 的 运算 
符 优 先 级 最 高 。 在 很 少 的 情况 下 ， 一 个 运算 符 以 不 同 的 优先 级 同时 被 当 作 一 元 和 二 元 运算 符 。 在 这 样 的 
情况 下 ， 将 使 用 sprec 指 示 命 令 强制 特定 用 法 运算 符 的 优先 级 。 


为 内 例 说 明和 包括 sprec 在 内 的 各 种 指示 命令 的 用 法 ， 我 们 对 表达 式 利用 可 控 二 义 性 把 先前 Micro 的 


例子 重 写 为 另 一 种 形式 。Micro 仅 包含 两 种 二 元 运算 符 + 和 一 ; 它们 有 相同 的 优先 级 和 结合 性 ， 因 此 我 们 
将 定义 拥有 更 丰富 运算 符 集合 的 扩展 Micro,，MicroPlus。 MicroPilus 的 运算 符 集合 的 定义 如 图 6-33 所 示 ; 
相应 的 Yacc 定 义 如 图 6-34 所 示 。 一 个 很 好 的 练习 是 将 图 6-34 的 定义 重 写 为 纯 上 下 文 无 关 文 法 的 形式 而 不 
使 用 显 式 的 优先 级 和 结合 性 定义 。 指定 表达 式 所 需 的 子 文法 将 会 非常 大 而 且 和 守重 。 


结合 性 


图 6-33 MicroPlus 运 算 符 
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$left unary minus /* Placeholder for unary '-'; 
SS 


program : BEGIN { start(); ) 
statement list END { finish(); } 


statement list : statement list statement 
| statemant 


statement : ID { $$ = push id():; ) 
ASG expression ';' ( assign($1, $3); ) 
| READ ' (^ id list ')' ';' l 
| WRITE '(' expr list ')' ';' 


id list : ID ( read id(); 


, } 
| id list ',' ID t read | id(); ) 


expr list : expression ( write expr($1); } 
| expr list ^,' expression ( write expr ($3) ; 


expression : 
expression ‘=' expression 0 
| expression ‘+ expression 1 
| expression '-' expression , 2+ 
| expression '*' expression 3, 
| expression '/' expression i , 4, $3); 
| '-' expression %prec unary minus $$ = negate($2); | 
| M expression ')' { $3 = $2; } 
|I { $$ = push id(); ) 
l INTLITERAL { $$ = push lit(); } 


&% 
/* 
* The same action and support routines as used in 
* the previous Yacc example, with negate () added. 
*/ 





图 6-34 使 用 受 控 二 义 性 的 MicroPlus 的 Yacc 规 范 


分 配给 运算 符 的 优先 级 解决 了 大 多 数 如 下 形式 的 移 进 - 归 约 冲 突 。 


Expr — Expr Op, Expr 
Expr — Expr « Op; Expr 


如 果 Op;+ 拥 有 比 Dps: 更 高 的 优先 级 ， 则 归 约 。 如 果 Op。 的 优先 级 更 高 ， 则 移 进 。 当 Op 和 Opz: 拥 有 相同 的 
优先 级 时 ， 使 用 结合 性 定义 。 如 果 这 两 个 运算 符 都 是 左 结合 的 ， 则 归 约 ; 如 果 这 两 个 运算 符 都 是 右 结合 
的 ， 则 移 进 ; 如 果 这 两 个 运算 符 是 非 结合 的 ， 则 产生 一 个 错误 。 

利用 运算 符 优先 级 和 结合 性 来 指导 分 析 的 思想 源 于 6.12.2 节 中 所 讨论 的 运算 符 优 先 级 分 析 技术 。 尽 
管 运算 符 优先 级 的 能 力 过 于 有 限 而 无 法 处 理 所 有 现代 程序 设计 语言 的 语法 ， 但 它 非常 适合 于 大 多 数 语言 
的 表达 式 结构 。 


6.8 优化 分 析 表 


在 实践 中 可 以 进行 许多 改进 来 降低 LR 分 析 器 的 空间 需求 。 可 以 使 用 单独 一 张 合 并 的 分 析 表 ， 而 不 是 
拥有 独立 的 go_to 表 和 action 表 。 在 action 表 中 的 移 进 条 目 被 扩展 以 包含 go_to 表 中 的 相应 状态 条 目 。 
非 终 结 符 条 目 也 包含 在 合并 的 表 中 ， 这 张 表 被 简单 地 称 为 分 析 表 。 

回 到 Gs， 我 们 将 编码 了 CFSM 信 息 的 go_to 表 和 SLR(1) 或 LALR(1) action 表 组 合 在 一 起 获得 图 6-35 
所 示 的 分 析 表 。 
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分 析 表 条 目 通常 编码 为 整数 。 一 种 方便 的 编码 方案 是 用 零 来 表示 错误 条 目 , 用 正 整数 表示 归 约 动作 ， 
用 负 整数 表示 移 进 动作 ， 并 用 拓 广 产生 式 (通常 是 R1， 编 码 为 1) 的 归 约 动作 表示 接受 动作 。 
许多 语法 分 析 器 状态 在 给 定 正确 的 超前 搜索 符号 时 只 识别 单一 的 归 约 。 因 此 图 6-35 中 的 状态 4 总 是 
识别 产生 式 5 或 产生 错误 。 我 们 称 这 些 状态 为 单一 归 约 状态 single reduce state )。 作 为 优化 ， 可 以 消除 
所 有 单一 归 约 状 态 。 典 型 地 ， 每 个 产生 式 都 有 一 个 相应 的 单一 归 约 状 态 ， 因 此 该 优化 能 够 极 大 地 缩减 必 
须 在 分 析 表 中 表示 的 状态 的 数量 。 
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图 6-35 Gs 的 SLR(1) 分 析 表 - 


引用 单一 归 约 状态 的 分 析 表 条 目 将 被 替换 为 一 个 特殊 标记 ， 在 这 里 使 用 一 个 L 前 组 和 在 该 状态 中 所 
识别 的 产生 式 来 表示 。 例 如 ， 移 进 到 状态 4 会 被 替换 为 条 目 L5。 这 里 的 思想 是 如 果 在 某 个 状态 只 能 够 做 
-种 可 能 的 归 约 ， 就 不 需要 实际 到 达 这 个 状态 ， 而 是 立即 做 归 约 。 我 们 也 修改 语法 分 析 器 驱动 程序 ， 使 
得 识别 L 类 型 归 约 时 ， 从 分 析 栈 中 少 弹出 一 个 状态 。 这 是 必要 的 ， 因 为 对 于 类 型 归 约 条 目 ， 我 们 立即 进 
行 归 约 而 不 是 移 进 到 一 个 单一 归 约 状态 并 随后 归 约 。 

但 如 果 超前 搜索 符号 不 正确 该 怎么 办 ? 因为 我 们 不 检查 超前 搜索 符号 , 所 以 无 论 如 何 都 要 进行 归 约 。 
对 错误 的 检测 被 推迟 到 试图 移 进 该 超前 搜索 记号 时 。 在 这 里 错误 必定 被 检测 到 ， 因 为 如 果 一 个 超前 搜索 
符号 不 正确 的 话 就 无 法 移 进 它 。 除 LR(k) (没有 相 容 状 态 合并 ) 之 外 的 所 有 LR 分 析 技 术 都 只 使 用 近似 超 
前 搜索 符号 来 决定 归 约 动作 ; 因此 消除 单一 归 约 状态 不 会 引入 任何 新 的 复杂 性 。 

在 大 多 数 情况 下 ， 在 看 到 错误 的 记号 和 将 其 识别 为 错误 这 段 时 间 之 间 的 少许 延迟 没有 什么 影响 。 如 
果 正 在 进行 错误 修复 ， 可 以 通过 缓存 分 析 器 活动 来 预见 不 正确 的 超前 搜索 符号 出 现 的 可 能 性 。 所 有 归 约 
都 被 保存 在 缓存 中 ， 直 到 超前 搜索 符号 被 成 功 地 移 进 并 生效 。 如 果 不 能 移 进 超前 搜索 符号 ， 那 么 在 执行 | 
错误 修复 前 将 用 缓冲 区 恢复 先前 的 归 约 。 这 将 在 第 17 章 更 完整 地 讨论 ， 其 中 涉及 LR 分 析 器 的 错误 修复 。 

在 实践 中 ， 删 除 单一 归 约 状 态 将 极 大 地 缩减 分 析 表 的 大 小 〈 基 本 上 ， 对 于 每 个 产生 式 都 会 有 一 个 状 
态 被 删除 )。 对 于 Gs， 一 个 优化 的 SLR(1D) 分 析 表 (其 中 的 状态 没有 被 重新 编号 ) 如 图 6-36 所 示 。 

在 删除 单一 归 约 状态 后 ， 对 剩余 的 状态 重新 编号 很 简单 。 再 一 次 将 分 析 表 条 目 编码 为 整数 。 错 误 系 
目 用 零 表 示 ， 归 约 动 作用 正 整 数 表示 ， 移 进 动作 用 负 整 数 表示 ， 而 接受 动作 则 用 拓 广 产生 式 的 归 约 动作 
来 表示 。L 条 目 被 编码 为 正 整数 加 上 某 个 大 于 产生 式 数 的 整数 。 因 此 L7 可 以 被 编码 为 1000 + 7 = 1007. 

靖 一 归 约 状态 的 删除 是 一 种 简单 而 又 有 效 的 优化 。 通 过 注意 到 某 些 状态 “几乎 ”是 单一 归 约 状态 还 
可 以 进一步 推广 这 里 的 思想 。 也 就 是 说 ， 儿 平 所 有 非 错误 条 目 都 是 一 个 特定 的 归 约 动作 。 图 6-36 中 的 状 
态 11 说 明了 这 一 点 。 有 三 个 R2 动 作 和 一 个 S8 动 作 。 可 以 通过 让 R2 成 为 该 状态 的 欢 认 动作 来 删除 R2 动 作 。 
也 就 是 说 ， 创 建 一 个 以 状态 作为 索引 的 辅助 向 量 ， 其 中 包含 每 个 状态 的 默认 归 约 动作 。 某 些 没有 默认 动 
作 的 状态 ， 其 默认 动作 就 是 报告 错误 。 当 一 个 默认 归 约 动作 被 选择 时 ， 它 被 加 入 辅助 表 并 从 分 析 表 中 盎 








B NN IA 


除 。 这 样 做 的 效果 是 从 分 析 表 的 一 行 中 删除 许多 相同 动作 并 只 保留 该 动作 的 一 个 复 本 。 分 析 表 将 含有 更 
少 的 非 错误 条 目 ， 因 此 它 也 更 易于 压缩 。 


[ID | 





图 6-36 Gs 的 优化 SLR(1) 分 析 表 


当 分 析 表 指示 一 个 错误 动作 时 ， 将 查询 辅助 表 。 如 果 有 默认 归 约 ， 则 执行 它 ， 否 则 ， 识 别 出 一 个 错 
误 。 像 单一 动作 状态 一 样 ， 这 项 优化 可 能 延迟 错误 的 识别 。 然 而 ， 移 进 动作 决 不 会 被 作为 默认 动作 ， 因 
此 错误 记号 不 会 被 不 正确 地 接受 。 因 为 LR 分 析 表 相当 稀 朴 ， 所 以 在 第 17 章 中 所 讨论 的 压缩 技术 常常 能 
够 极 大 地 减少 存储 需求 。 | | 

刚刚 讨论 的 优化 是 空间 优化 ， 设 计 用 于 减 小 LR 分 析 表 的 大 小 和 密度 。 然 而 ， 速 度 优化 也 是 可 能 的 ， 
其 中 受 关注 最 多 的 是 消除 单位 归 约 〈unit reduction)。 单 位 妇 约 是 用 把 产生 式 的 长 度 为 1 的 右 部 用 一 个 非 
终结 符 当然， 长度 也 是 1) 来 替换 。 常 常 发 生 一 系列 的 单位 归 约 ， 并 且 有 可 能 把 这 样 的 归 约 链 折 司 为 
单一 归 约 。 

右 部 长 度 为 1 的 单位 产生 式 用 于 表达 式 中 以 强制 运算 符 优 先 级 。 例 如 ,在 Gs 中 ,， HE OT. TP 
和 P — ID。 一 般 情况 下 ， 如 果 一 个 程序 设计 语言 有 n 个 运算 符 优化 级 ， 它 将 有 从 标识 符 到 表达 式 的 n+1 
个 单位 产生 式 组 成 的 产生 式 链 。 在 真正 的 语言 中 
可 以 是 10 或 更 大 ， 而 分 析 一 个 由 单个 标识 符 或 文字 





常量 组 成 的 平凡 〈 而 且 非 常 普通 的 ) 表达 式 会 需要 Se ES ,(À) 
KEFR. E-e.E«T {$+} 
如 果 在 ID 和 表达 式 中 间 的 单位 产生 式 都 不 包含 
动作 符号 ， 则 它们 可 以 被 安全 地 跳 过 。 这 里 的 思想 Poe i$) 
是 检查 每 个 合法 的 超前 搜索 符号 并 确定 在 消耗 该 超 P — e (E) ,{$+*)} 
前 搜索 符号 之 前 将 应 用 多 少 个 单位 产生 式 。 作 为 示 - 
例 ， 重 新 考虑 Gs 的 LALR(1) 机 器 的 状态 0， 如 图 6-37 图 6-37 文法 Gs 的 一 个 CFSM 状 态 
所 示 。 


如 果 移 进 ID， 可 能 的 超前 搜索 符号 为 $、+ 和 *。 如 果 * 是 超前 搜索 符号 ， 则 ID 将 被 归 约 为 P， 随 后 P 
被 归 约 为 T。 如 果 + 或 $ 是 超前 搜索 符号 ， 则 1D 将 被 归 约 为 P， 随 后 P 被 归 约 为 T， 最 后 T 被 归 约 为 E。 我 们 
通过 修改 状态 s = go_to[ol[ID] 的 分 析 表 条 目 来 优化 单位 归 约 链 。 对 于 一 个 超前 搜索 符号 * ， 识 别 伪 产生 
X, (pseudoproduction) T > 1D 并 执行 必要 的 语义 例 程 ， 随 后 将 go_to[ol[T] 压 人 分 析 栈 中 ， 略 过 产生 式 T 
一 下 。 对 于 超前 搜索 符号 + 或 $， 识 别 E > ID. 

单位 归 约 优化 会 提高 语法 分 析 器 的 速度 ， 但 可 能 会 以 新 的 分 析 器 状态 或 分 析 表 条 目 为 代价 。 研究 人 
员 已 经 研究 了 不 过 度 增加 分 析 表 大 小 的 单位 归 约 优化 方法 (Soisalon-Soininen 1982, Pager 1977)。 这 些 
技术 相当 复杂 ， 而 且 并 不 总 是 需要 它们 的 完全 通用 性 。 

_. 种 有 效 的 直观 推断 是 先 选择 预测 表达 式 的 那些 状态 (例如 Gs 的 CFSM 中 状态 0 和 状态 6, 见 图 6-18)， 
并 且 对 这 些 状态 仅 修改 其 面临 开始 一 个 归 约 链 的 符号 (IDKINTLITERAL) 时 的 后 继 状态 。 这 里 的 直觉 
是 最 常见 的 表达 式 都 是 由 单个 标识 符 或 文字 常量 组 成 的 平凡 表达 式 。 因 此 ， 折 又 从 标识 符 或 文字 负 量 到 
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表达 式 的 单位 产生 式 链 非常 有 区 。 

我 们 修改 的 后 继 状态 通常 会 被 删除 ， 因 此 会 有 适度 的 空间 损失 。 只 要 超前 搜索 符号 对 相同 的 移 进 和 
归 约 动作 达成 一 致 ( 归 约 动作 可 以 覆盖 错误 动作 ) ， 新 创建 的 状态 就 可 以 共享 相同 的 分 析 表 行 。 因 此 ， 
在 图 6-36 中 Gs 的 优化 SLR(1) 分 析 表 中 ， 消 除了 错误 条 目的 状态 0 对 于 ID 的 后 继 状态 变 成 

[$: Reduce E 一 ID; +: Reduce E — ID; +: Reduce T — ID] 

类 似 地 ， 状 态 6 对 于 ID 的 后 继 状态 变 成 

[Reduce E — ID; +: Reduce E — ID; *: Reduce T ID) 
这 里 不 存在 神 突 ， 因 此 这 两 行 可 以 进行 禾 盖 。 

在 蘑 些 状态 中 ， 一 系列 单位 归 约 必须 独立 于 超前 搜索 符号 发 生 。 例 如 ， 在 Gs 的 CFSM 的 状态 3 中 ， 
在 ID 被 归 约 为 P 之 后 ，P 必 须 总 是 被 归 约 为 T。 将 L 类 型 归 约 P — ID 替换 为 伪 产 生 式 T 一 ID, TAERA 
空间 损失 的 情况 下 优化 归 约 链 。 | | 


6.9 SCHHBSLR(O) DHAS 


编译 器 编写 者 的 传统 观点 是 LALR(1) 是 最 强大 的 “实用 的 ” 移 进 - 归 约 分 析 器 ， 而 且 事 实 上 大 多 数 
自 底 自 上 的 语法 分 析 器 生成 器 都 是 LALR(1) 的 。 完 整 的 LR(1) 分 析 器 常 被 忽视 ， 因 为 它们 通常 包含 过 多 
的 状态 而 无 法 用 于 真正 的 程序 设计 语言 。 m 

然而 ， 该 观点 并 不 完全 合理 。 如 我 们 所 看 到 的 ，LALR(1) 可 以 被 视 为 对 LR(1) 分 析 器 的 优化 ， 其 中 
合并 了 所 有 同心 状态 。LALR(1) 是 一 种 要 么 全 有 、 要 么 全 无 的 方法 ;我们 合并 所 有 可 能 的 相应 LR(1) 状 
态 并 随后 或 者 接受 或 者 拒绝 这 个 “优化 的 ”语法 分 析 器 。 

更 恰当 的 方法 是 当 可 能 时 合并 状态 ， 但 在 会 引入 分 析 冲 突 时 不 合并 状态 。 这 保证 了 全 部 的 LR(I) 文 
法 类 都 会 被 接受 ， 而 且 仍 然 会 极 大 地 节约 空间 。 如 果 一 个 文法 是 LALR(1) 的 ， 则 所 试图 进行 的 所 有 合并 
必定 成 功 ， 而 且 获 得 传统 的 LALR(1D) 机 器 。 如 果 一 个 文法 “几乎 是 LALR(1) 的 "， 则 得 到 仅 比 相应 CFSM 
多 出 少量 状态 的 语法 分 析 器 。 | 

在 可 能 时 合并 状态 的 思想 是 很 吸引 人 的 ， 但 它 并 不 像 看 起 来 那么 简单 。 主 要 困难 是 一 对 状态 可 能 看 
起 来 可 以 合并 而 事实 上 并 非 如 此 。 当 一 对 状态 被 合并 时 ， 面 临 同 样 符号 的 后 继 状 态 必须 也 被 合并 ， 而 分 
析 冲 突 完 全 有 可 能 仅 在 执行 后 继 状 态 合并 时 出 现 。 考 虚 图 6-38 所 示 的 LR(1) 状 态 对 。 合 并 这 两 个 状态 是 错 
误 的 ， 因 为 它们 的 后 继 在 合并 时 会 产生 不 可 解决 的 归 约 - 归 约 冲突 。 


82:8. 83:8: 
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图 6-38 要 被 合并 的 LR(1) 状 态 对 


另 一 个 困难 是 状态 合并 的 顺序 可 能 造成 最 终 “优化 的 ”语法 分 析 器 大 小 上 的 差异 。 这 意味 着 不 能 在 
所 有 情况 下 保证 得 到 最 少 状 态 分 析 器 ， 除 非 党 试 所 有 合并 状态 的 方法 。 仅 考虑 一 种 合并 次 序 的 实际 效 盾 
是 ， 所 得 到 的 最 少 的 状态 相对 于 最 优 情况 来 说 差别 可 能 非常 地 小 。 

假定 有 两 个 LRC 状态 s; 和 sz 同心 。 需要 某 种 方法 确定 合并 这 两 个 状态 是 否 会 导致 分 析 冲突 。 一 种 


可 能 的 办 法 是 分 两 步 来 进行 。 首 先 ， 确定 s; Us; 是 否 有 任何 不 能 通过 超前 搜索 符号 来 解决 的 冲突 。 这 很 


容易 做 到 。 如 果 立 即 合并 是 安全 的 ， 则 研究 合并 其 后 继 状 态 的 结果 一 一 例如 ，90-to[ls1j[X] 和 
go_to[ssJ[X]。 如 果 对 任何 一 对 后 继 状 态 的 合并 会 导致 不 可 解决 的 冲突 ， 则 回 淹 并 拒绝 合并 st 和 sz。 

这 种 回 沽 方法 的 一 个 真正 问题 是 它 假定 整个 LR(1) 机 器 已 经 被 构造 出 来 ， 因此 能 够 根据 需要 对 状态 
和 它们 的 后 继 进行 合并 。 更 好 的 方法 是 在 创建 状态 时 对 它们 进行 合并 ， 以 极 大 地 减少 需要 操纵 的 中 间 状 
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态 的 数量 。 该 方法 已 经 由 Pager (1977) 进行 了 研究 。 他 没有 去 合并 状态 并 随后 研究 那些 甚至 还 没有 被 
创建 的 后 继 状 态 的 合并 效果 ，Pager 只 是 定义 了 保证 合并 安全 的 标准 。 

最 简单 的 标准 被 称 为 “ 弱 相 容 性 ”( weak compatibility )。 考 虑 两 个 LR(UD 状 态 s 和 S., ， 它 们 同心 并 
因此 可 能 被 合并 。 考 虑 s 中 的 两 个 项 目 A — o * B, LAB 一 e y, L2>， 其 中 和 Ls 表示 可 以 应 用 于 相应 加 
点 产生 式 的 超前 搜索 符号 集 。 因 为 S 和 s 同 心 ， 所 以 S 必定 包含 形 如 A 一 a。8，L, 和 B 一 dey, L, t 
项 目 。 我 们 称 s 和 S 是 弱 相 容 的 ， 当 且 仅 当 对 于 所 有 项 目 对 满足 下 列 三 个 条 件 之 一 : 

(Lin L;- OR L, NL2=8 

(2) LaL +ø 

(3) L, n L, * 

不 难 证 明 两 个 状态 是 弱 相 容 的 ， 当 且 仅 当 它 们 的 基础 集 是 弱 相 容 的 。 这 个 事实 很 有 用 ， 因 为 它 使 检 
查 弱 相 容 性 更 为 容易 一 一 仅 有 基础 项 目 需要 针对 条 件 1、2 和 3 进行 〈 逐 对 地 ) 检查 。 

弱 相 容 性 的 重要 性 在 于 : 如 果 两 个 状态 是 如 相 容 的 ， 则 它们 可 以 被 安全 地 合并 。 为 理解 为 什么 是 这 
样 ， 首 先 观察 合并 两 个 状态 可 能 引入 归 约 - 归 约 冲突 ， 但 不 会 引入 移 进 - 归 约 冲突 。 也 就 是 说 ， 如 果 出 现 
移 进 - 归 约 冲突 ， 则 它 必定 在 合并 任何 状态 之 前 就 已 经 存在 。 特 别 地 ， 神 突 必 定 已 经 存在 于 这 样 的 状态 
之 中 : 它们 中 含有 的 需 移 进 的 符号 可 作为 归 约 动作 的 超前 搜索 符号 。 | 

归 约 - 归 约 冲突 可 能 出 现在 合并 后 的 状态 中 吗 ?” 弱 相 容 性 的 条 件 1 声 明 在 合并 之 后 添加 的 超前 搜索 


”符号 不 会 产生 溃 突 ， 条 件 2 和 条 件 3 仅 当 在 合并 之 前 存在 归 约 - 归 约 冲突 时 成 立 ， 而 在 这 种 情况 下 无 论 如 


何 都 不 会 试图 进行 合并 。 

归 约 - 归 约 冲突 可 能 出 现在 合并 状态 的 后 继 中 吗 ? 考虑 s 和 S 面临 某 个 符号 x 时 的 直接 后 继 。 称 他 们 
为 sx 和 S,. Basis(s,)AMBasis( S, ) 是 弱 相 容 的 ， 因 为 它们 直接 从 已 知 是 相 容 的 s 和 S 获得 。 如 前 面 所 提 
到 的 ， 已 知 如 果 基 础 项 目 集 是 弱 相 容 的 ， 则 整个 项 目 集 也 是 。 这 直接 暗示 了 如 果 合 并 sx 和 Sx 不 会 引入 
任何 归 约 - 归 约 冲突 。 重 复 该 论证 ， 所 有 后 继 状态 都 是 弱 相 容 的 ， 且 因此 可 以 安全 地 进行 合并 。 

弱 相 容 性 的 概念 导致 了 一 个 直截了当 的 LR(1) 生 成 算法 。 当 一 个 LR(1) 状 态 s 被 创建 时 ， 我 们 检查 
已 经 创建 的 与 s 同 心 的 状态 。 如 果 存 在 与 s 弱 相 容 的 这 样 一 个 状态 5 ， 则 合并 s 和 5 。 如 果 已 经 创建 
T 5 的 后 继 ， 则 试图 用 s U 5 的 后 继 来 替换 它们 。 但 并 不 总 能 这 样 做 ， 因 为 5 的 后 继 可 能 已 经 与 其 他 
状态 合并 。 弱 相 容 性 能 够 用 于 验证 替换 是 否 可 能 。 如 果 不 可 能 ， 则 创建 一 个 新 的 后 继 状 态 。 如 果 5 的 
后 继 还 未 创建 ， 合 并 s 和 S 将 导致 稍 后 生成 sU S 的 后 继 状 态 。 

如 果 底 层 文法 实际 上 是 LR(1) 的 ， 则 该 算法 总 是 创建 正确 的 LR(1) 分 析 器 。 然 而 ， 它 不 一 定 产生 最 少 
状态 LR(D) 分 析 器 。 原 因 是 弱 相 容 性 规则 可 能 排除 对 实际 上 可 以 安全 合并 的 状态 的 合并 。 例 如 ， 假 定 有 
图 6-39 所 示 的 LR(1) 状 态 。 | 


85 ebd M 85 debd i 
Boaebd, {ly B— aebd, {x 


图 6-39 能 够 被 合并 的 LR(1) 状 态 对 


这 两 个 状态 同心 但 不 是 弱 相 容 的 。 然 而 ， 它 们 可 以 被 安全 地 合并 ,. 因为 在 此 情况 下 不 可 能 有 归 约 - 
归 约 冲突 ， 而 且 甚 至 不 需要 超前 搜索 符号 。 问 题 是 超前 搜索 符号 x 瞳 示 未 来 的 归 约 - 归 约 冲突 ， 而 事实 上 
该 冲突 不 会 被 触及 。 | 

实际 上 ， 这 看 起 来 没有 问题 ， 因 为 在 “真正 ”的 文法 中 弱 相 容 性 极 少 排除 可 行 的 合并 。 尽 管 如 此 ， 
确实 存在 保证 执行 所 有 可 行 合 并 的 方法 。Pager (1977) 定义 了 强 相 容 性 〈strong compatibility) 标准 。 
这 些 标准 通过 下 列 要 求 改善 了 弱 相 容 性 标准 : 如 果 一 个 合并 看 起 来 会 导致 最 终 的 归 约 - 归 约 冲突 ， 则 该 
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促 突 必须 实际 上 可 以 被 触及 。 在 前 面 的 例子 中 ， 项 上 自 A 一 ae bc, x 和 B 一 * bd, x 不 会 导致 最 终 的 归 
约 - 归 约 冲突 ， 因 此 强 相 容 性 允许 对 其 进行 合并 。 另 一 种 方法 是 ， 一 有 卫 已 经 利用 弱 相 容 性 构造 了 LR(1) 机 
器 ， 类 似 于 早先 描述 的 一 个 回 亢 算 法 能 够 被 用 于 探测 尚未 匹配 的 状态 。 如 果 不 产 生 冲 突 ， 无 法 由 弱 相 容 
性 处 理 的 状态 将 被 合并 。 否 则 ， 进 行 回 部 并 考虑 其 他 的 可 能 性 。 

一 个 称 为 ZR 的 完整 LR(1) 分 析 器 生成 器 由 Wetherell 和 Shannon (1981) 所 创建 。LR 系 统 利 用 Pager 的 
弱 相 容 性 标准 在 创建 状态 时 对 其 进行 合并 。LR 已 被 很 好 地 用 于 若干 商用 开发 中 ， 并 已 毫 不 费力 地 为 Ada 
和 PL/I 生 成 了 语法 分 析 器 。LR 以 标准 FORTRAN 语 言 编写 并 且 很 容易 移植 。 


6.10 LR 分 析 的 性 质 


前 面 已 经 讨论 的 所 有 LR 分 析 的 变 体 都 共享 一 些 我 们 需要 了 解 的 重要 的 公共 性 质 。 我 们 已 经 讨论 了 
最 重要 的 性 质 ， 正 确 性 。 每 个 LR 式 的 语法 分 析 器 都 保证 能 正确 地 分 析 有 效 输入 并 在 试图 分 析 无 效 输入 
时 检测 出 语 灶 错误。 此外， 因为 所 有 LR 式 语 法 分 析 器 都 仅 接 受 活 前 级 ， 一 旦 分 析 器 试图 移 进 不 能 作为 
活 前 组 一 部 分 的 词法 记号 ， 就 将 检测 到 语法 错误 。 这 人 允许 即时 和 方便 的 错误 报告 。 

另 一 个 重要 的 性 质 是 无 二 义 性 (unambiguity)。 即 ， 如 果 已 知 一 个 文法 适合 任意 LR 式 分 析 类 ， 则 该 
文法 将 不 允许 二 义 的 推导 。 这 个 结果 其 实 就 是 LR 式 语法 分 析 器 都 是 确定 的 这 样 一 个 事实 的 副作用 。 特 
别 地 ， 在 每 个 状态 中 ， 以 及 对 于 每 个 超前 搜索 符号 ， 都 要 求 惟一 的 分 析 器 动作 。 二 义 文法 允许 选择 性 的 
推导 ， 这 将 导致 在 某 个 状态 中 的 移 进 - 归 约 冲突 或 归 约 - 妇 约 冲突 。 

所 有 LR 式 语法 分 析 器 所 共有 的 另 一 个 重要 性 质 是 它们 都 是 高 效 的 各 果 我 们 正在 分 析 一 个 全 有 个 
词法 记号 的 程序 ， 则 

,分析 栈 决 不 会 包含 多 于 ci x n 介 状态 ， 其 中 ci 是 由 正在 分 析 的 文法 所 确定 的 一 个 常量 。 

。 语法 分 析 器 决 不 会 进行 多 于 ca x n 次 移动 ， 其 中 cz 也 是 由 文法 确定 的 一 个 常量 。 

也 就 是 说 ，LR 分 析 器 的 运行 是 线性 的 。 该 结论 实际 上 是 至 关 重 要 的 ， 因 为 产品 级 编译 器 常常 会 分 
析 含 有 数 万 个 词法 记号 的 程序 。 假 如 不 能 保证 线性 分 析 ， 大 程序 的 编译 会 惊人 地 昂贵 。 

为 证 明 线 性 性 质 ， 首 先 注意 到 ， 已 知 在 无 二 义 文法 中 任意 串 s 的 分 析 树 在 尺寸 上 线性 正比 于 s。 该 结 
果 是 第 4 章 练习 12 的 推广 。 假 如 该 事实 不 是 真 的 ， 则 利用 任何 技术 的 线性 语法 分 析 都 将 是 不 可 能 的 ， 因 
为 语法 分 析 器 在 运行 时 都 “发 现 ”相应 的 分 析 树 。 

为 证明 LR 分 析 器 仅 需 要 线性 空间 ， 我 们 注意 到 : 在 语法 分 析 中 出 现 的 每 个 符号 要 么 是 终结 符 要 么 
是 非 终结 符 ， 都 恰好 移 进 一 次 。 符 号 总 数 正比 于 输入 的 大 小 ， 因 此 分 析 栈 最 大 深度 也 同样 正比 于 输入 的 
大 小 。 . 

为 证 明 线性 时 间 ， 我 们 首先 注意 到 : 语法 分 析 器 驱动 程序 的 每 次 循环 都 需要 有 限 的 时 间 。 因 为 每 次 
循环 消耗 一 个 符号 ， 而 符号 总 数 正比 于 输入 长 度 ， 所 以 总 分 析 时 间 也 同样 正比 于 输入 长 度 。 

如 果 包 括 动作 符号 ， 识 别 它们 并 调用 语义 例 程 所 需 的 总 时 间 也 是 线性 的 。 这 是 因为 每 个 产生 式 中 仅 
有 固定 数量 的 动作 符号 ， 通 常 是 一 个 。 执 行 一 个 语义 例 程 的 时 间 不 需要 有 限制 。 因 此 ， 尽 管 分 析 必 定 是 
线性 的 ， 语 义 处 理 和 代码 生成 不 必 也 是 线性 的 《尽管 实际 上 它们 都 是 线性 的 ， 除 非 执 行 大 量 的 优化 )。 


6.11 LL(1) 和 LALR(1) 分 析 方 法 的 比较 


在 真正 的 编译 器 中 占 统治 地 位 的 两 种 语 潜 分 析 技 术 是 LL(1) 和 LALR(1)。 实际 上 所 有 现代 编译 器 都 
使 用 这 两 种 技术 中 的 一 种 或 是 相近 似 的 变 体 〈 例 如、 递归 下 降 或 SLR(1))。 编译 器 编写 者 意识 到 每 种 技 
术 的 优点 和 弱点 并 因此 能 够 做 出 明智 的 选择 是 非常 重要 的 。 

在 下 列 小 节 中 ， 将 依据 许多 标准 分 别 对 LL(1) 和 LALR(1) 进 行 比较 。 正如 所 期 望 的 ， 每 种 分 析 技 术 
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都 有 它 自 己 特殊 的 优点 。 在 为 特定 的 编译 器 设计 选择 分 析 技 术 之 前 ， 研 究 这 些 标准 并 选择 该 设计 所 需 的 
最 合适 技术 或 许 是 个 好 主意 。 然 而 ， 在 许多 情况 下 ， 抽 象 因 素 也 会 产生 影响 。 就 像 在 家 乡 的 舞蹈 俱乐部 
中 一 样 ， 首 先 学 会 的 技术 通常 会 成 为 我 们 最 喜欢 的 。 抛 开 这 样 的 偏见 不 谈 ， 没 有 哪 种 技术 是 普遍 受 欢迎 
的 ， 而 一 个 公平 的 比较 将 会 很 有 价值 。 
简单 性 

LL(1) 和 LALR(1) 都 有 非常 简单 的 驱动 程序 。LL(1) 的 基本 概念 非常 易于 可 视 化 及 理解 。LALR(1) 则 
相对 较为 复杂 ， 它 含有 项 目 、 项 目 集 、 状 态 合并 以 及 超前 搜索 符号 传播 等 概念 。 因 为 使 用 了 语法 分 析 器 
生成 器 ， 语 法 分 析 器 构造 的 内 部 细节 通常 是 隐藏 的 。 然 而 有 时 当 调 试 一 个 文法 〈 即 对 文法 进行 修正 以 使 
其 符合 一 个 语法 分 析 类 的 要 求 ) 时 ， 会 涉及 内 部 细节 。 在 这 种 情况 下 ， 简 单 性 无 疑 是 有 利 因素 ， 因 此 在 
这 里 更 强大 的 文法 是 LL(1)。 
通用 性 

在 其 他 所 有 方面 都 相同 时 ， 语 法 分 析 技 术 能 够 处 理 愈 广泛 的 文法 类 愈 好 。LL(1) 和 LALR(1) 都 不 能 
处 理 所 有 非 二 义 文法 。 然 而 ， 所 有 LL(1) 文 法 都 是 LR(1D) 的 ， 而 且 实 际 上 也 都 是 LALR(1) 的 。LL(1) 分 析 器 
对 于 文法 形式 的 要 求 相当 严格 ， 它 禁止 左 递归 和 共享 公共 前 绎 的 产生 式 。 

很 容易 将 一 个 文法 变 为 LALR(1) 的 形式 ,而 且 实 际 上 所 有 现代 语言 的 设计 都 适 于 构造 LALR(1) 分 
析 器 。 事 实 上 , -谨慎 的 语言 设计 努力 常常 包括 一 个 已 经 是 LALR(1) 形 式 的 “参考 文法 ”。 

相反 ， 大 多 数 参 考 文 法 必须 重 写 为 LL(D) 形 式 。 在 极 少 的 情况 下 ， 像 Pascal 的 悬空 else 这 样 的 结构 不 
存在 非 二 义 的 LL(1) 表 述 。 非 LL(1) 语 言 结构 很 少见 。 一 个 有 效 的 经 验 是 对 于 任意 合理 的 程序 设计 语言 都 
能 构造 LL(1) 和 LALR(1) 文 法 。 然而，LALR(1) 文 法 几乎 肯定 更 容易 书写 并 更 容易 阅读 。 总 之 ,无论 如 何 ， 
LALR(1) 在 通用 性 方面 有 着 明显 的 优势 。 
动作 符号 | 

动作 符号 是 语法 分 析 器 和 语义 例 程 之 间 的 接口 。LL(I) 人 允许 将 动作 符号 放置 在 产生 式 右 部 的 任何 地 
方 。LALR(I) 人 允许 将 动作 符号 放置 在 产生 式 的 最 右 端 但 不 允许 放 在 任何 其 他 地 方 。 然 而 ， 通 常 LALR(H) 
文法 可 以 被 重 写 以 允许 必要 的 语义 例 程 调用 。 事 实 上 ，Yacc 人 允许 将 代码 片段 放置 在 产生 式 右 部 的 任何 地 
方 ， 并 以 6.6 节 结尾 所 描述 的 方式 自动 引入 新 的 匿名 非 终结 符 号 。 通 常 不 会 由 此 引入 分 析 溃 突 ， 这 在 语 
义 动 作 的 放置 方面 给 予 Yacc 与 LL(1) 分 析 器 几乎 相同 的 灵活 性 。 | 

总 之 ，LL(1) 在 动作 符号 的 放置 方面 允许 最 佳 的 灵活 性 。 某 些 LALR(1) 生 成 器 几乎 同样 灵活 ， 但 其 
他 一 些 LALR(1) 生 成 器 则 在 语义 动作 的 放置 方面 显然 更 具 限 制 性 。 | 
错误 修复 

错误 修复 在 第 17 章 中 详细 讨论 。 简 单 地 说 ，LL(1) 分 析 栈 中 包含 已 经 预测 但 尚未 匹配 的 符号 。 该 信 
自 对 于 确定 可 能 的 修复 无 疑 是 很 有 价值 的 。LALR(H) 分 析 栈 中 包含 关于 已 经 看 到 的 符号 的 信息 。 而 决定 


可 能 用 作 修 复 的 后 续 动作 却 不 容易 。 因 此 ，LL(1) 错 误 修复 倾向 于 更 为 简单 。 


分 析 表 大 小 

LL(1) 和 LALR(1) 都 需要 可 能 相当 大 的 分 析 表 。 如 果 编 译 器 的 大 小 是 需要 考虑 的 问题 ， 则 比较 这 两 
种 分 析 技 术 所 需 分 析 表 的 相对 大 小 是 有 益 的 。 | 

对 于 LL(1) 分 析 器 而 言 ， 未 压缩 的 分 析 表 大 小 为 |Vn| x [Vi] 。 此 外 ， 还 需要 一 张 产生 式 右 部 及 其 大 
小 的 表 ， 其 大 小 为 |G | ， 其 中 1G | 是 所 有 产生 式 长 度 的 和 ，。 

相反 ，LALR(1) 分 析 器 需要 一 张 最 大 为 |States| x (| Vs | | Vi UAR ERA Er. DU SE UNA? 


”x 1P| 的 产生 式 长 度 和 产生 式 左 部 的 表 。 在 最 坏 情 况 下 (该 情况 是 可 能 出 现 的 ， 见 练习 35)， 状 态 数 相 


对 于 文法 的 大 小 是 指数 阶 的 。 即 ，LALR(1) 状 态 对 应 于 项 目 集 。 不 同 项 目的 数量 等 于 |G | ， 因 此 不 同 项 
目 集 的 数量 是 2151。 
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因为 LALR(1) 分 析 表 大 小 可 能 呈 指 数 爆 炸 ， 所 以 LL(1) 看 似 有 较 安 全 的 最 坏 情况 行为 。 然 而 ， 更 合 
理 的 比较 是 在 期 望 情 况 而 不 是 最 坏 情 况 下 获得 的 。 当 然 ， 普 通 文法 不 会 导致 指数 阶 的 分 析 表 大 小 。 就 比 
较 目 的 而 言 ， 下 列 经 验 规 则 通常 用 于 典型 的 程序 设计 语言 文法 : 

M | Vil e 0.5 x IVa | 

: |P| 42x |V,| 

e [GI 57x |Va] (Bp, 3.5 x |P]) 

* [States] = |P| =2 x | V.| 

利用 这 些 规则 ， 可 以 计算 出 分 析 表 条 目的 粗略 估计 值 。 因 为 分 析 表 通常 以 压缩 形式 使 用 ， 所 以 我 们 
仅 考虑 非 错误 条 目 。 这 里 ， 对 LL(1) 采 用 10% 的 非 错误 条 目 估 计 值 ， 而 对 LALR(1) 采 用 5% 的 估计 值 。 

因此 ，LL(1) 条 上 是 的 数量 为 

[LL()| = 0.1 xiV4 [xIViI*1GI 


z 0.1 x|V4[x 0.5 x[ V4 I7 x| Vy | 
20.05 x|V4 1247 x1V41 


类 似 地 ，LALR(D) 条 目的 数量 为 
ILALR(1)] = 0.05 x|PEx (VanI+IV)+2xIPI 
= 0.1 xf V,1X (4V41- 05x1V4, D -2x2x|V4I 
.=01xiv lx (5 xi V4 D +4 XIVg| 
20.15 x|V, I? +4 [V4] 


，|LALR(1) | 会 比较 大 ， 极 限 比 为 
m LALRCD1 _ 
Val |LLC)] 
0.15x|Vnl?+4x1Val _ 

vio 0.05x1Val2+7% [Val - 

对 于 典型 的 程序 设计 语言 ，|Vn| = 100。 由 此 给 出 比值 : 

0.15x100 +4x100 _ 1500+4x100 | 

0.05x1007+7x100 500+7x100 

在 该 范围 内 ，LL(D) 表 中 的 产生 式 右 部 约 需要 与 LL(D) 分 析 表 目 身 同样 大 的 空间 。 为 评价 这 些 估 算 的 
合理 性 ， 让 我 们 考 串 两 个 实际 的 Pascal 文 法 ， 一 个 是 LL(D) 文 法 ， 另 一 个 是 LALR(1) 文 法 。 

在 LL(1) Pascal 文 法 中 ，|Vn|= 125, |Vil= 60, [P|= 234. 有 591 个 非 错误 分 析 表 条 目 和 640 个 产 此 式 
右 部 信息 条 目 。 与 预测 值 005x 125 + 7x 125* 1656 相 比 ， 这 里 给 出 了 1231 个 条 目 。 

类 似 地 ，LALR(1) Pascal 文 法 有 |Vd= 60, |Val= 127, |P]|= 280. 它 有 2798 个 非 错误 分 析 表 条 目 
和 560 个 产生 式 长 度 和 产生 式 左 部 信息 条 目 ， 与 预测 值 0.15 x 127 + 4 x 127 = 2927 相 比 ， 总 共有 3358 个 
条 目 。 

比值 是 2927 / 1656 = 1.77。 因此 ， LALR(1) 与 LL(1) 分 析 表 大 小 的 比值 呈现 出 约 为 2 比 1 的 良好 工作 值 。 
LL(D) 在 空间 需求 方面 有 明显 的 优势 ， 而 在 空间 紧张 的 情况 下 ， 这 种 差异 会 成 为 选择 LL(1) 的 决定 性 因素 。 

因为 LALR(1) 和 LL(1) 的 驱动 程序 都 检查 分 析 树 中 的 每 个 终结 符 和 非 终结 符 ， 所 以 可 以 预期 它们 的 
分 析 速 度 是 相当 的 。 | 
对 比较 的 总 结 

LL(1) 在 除 通 用 性 之 外 的 所 有 领域 都 有 优势 ， 而 LALR(1) 则 在 通用 性 方面 有 明显 的 优势 。 尽 管 如 此 ， 


= 1.58 
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在 所 有 领域 中 这 两 种 分 析 都 完全 可 行 。 如 果 一 个 LL(1) 文 法 已 经 可 用 ， 则 LL(1) 对 于 第 一 个 编译 器 可 能 是 
更 好 的 选择 。 知 识 渊博 的 编译 器 编写 者 应 当 同 时 精通 这 两 种 技术 。 随 后 ， 经 验 以 及 适当 语法 分 析 器 生成 
器 的 可 用 性 将 会 指导 个 人 的 选择 。 


6.12 其 他 的 移 进 - 归 约 技术 


本 章 所 讨论 的 基于 LR 的 语法 分 析 技 术 目 前 在 移 进 - 归 约 分 析 器 中 占 主导 地 位 。 为 完整 起 见 ， 本 节 中 
将 讨论 许多 其 他 的 移 进 - 归 约 技术 。 这 些 技术 主要 有 历史 和 理论 上 的 意义 。 尽 管 如 此 ， 简 短 的 概览 将 说 
明 近 年 来 开发 的 扩展 方法 和 其 他 可 选 的 方法 . 


6.12.1 扩展 的 超前 搜索 技术 


SLR(1)、LALR(1) 和 LR(1) 语 法 分 析 技 术 可 以 被 推广 以 利用 k 个 超前 搜索 符号 。 其 结果 为 SLR(K)、 
LALR(kK) 和 LR(K) 技 术 ， 它 们 利用 k 个 符号 的 First 和 Follow 集 ， 由 Firstx 和 Followk 表 示 。 
推广 是 直截了当 的 : 
(D LR(k): 当 求 一 个 包含 A 一 a * Bp, xij EL RAAT, MAB — ey, y, Hy € Firstx(Bx)。 
如 果 当 前 状态 包含 A 一 a*,x， 则 在 面临 超前 搜索 符号 x 时 按照 产生 式 A 一 a 归 约 。 
如 果 当 前 状态 包含 A 一 a。aB,y， 其 中 a E ViAx E Firstx(aBy)， 则 在 面临 超前 搜索 符号 x 时 移 进 。 
(2) SLR(k): 如 果 当 前 状态 包含 A 一 a, Hx € Followx(A)， 则 在 面临 超前 搜索 符号 x 时 按照 产 
生 式 A 一 a 归 约 。 
如 果 当 前 状态 包含 A — a。aB， 其 中 a € Vi 且 x € Firstx(aBFollowx(A))， 则 在 面临 超前 搜索 符号 
x 时 移 进 。 
(3) LALR(k): 合并 LR(K) 机 器 中 同心 的 那些 状态 和 语法 分 析 器 动作 。 
正如 所 期 望 的 ， 这 些 推广 扩展 了 可 被 分 析 的 文法 类 。 例 如 ， 如 果 LR(K) 表 示 可 利用 k 个 符号 超前 搜索 
的 LR 技术 进行 分 析 的 文法 集 ， 则 容易 证 明 LR(0) C LRO) C … LR(k) C LR(k + 1)…。 对 于 SLR(k) 和 


LALR(k) 适 用 类 似 的 包含 结果 。 可 以 提出 任意 数量 的 包含 问题 ， 例 如 : 是 否 存在 是 LR(1) 和 LALR(2)、 但 


不 是 LALR(1) 的 文法 ?以 及 是 否 存 在 是 SLR(3) 但 不 是 SLR(2) 的 文法 ? (答案 是 存在 。) 

在 实际 意义 上 ， 扩 展 的 超前 搜索 技术 几乎 没有 价值 。 对 于 扩展 的 超前 搜索 技术 ， 其 分 析 表 大 小 迅速 
增加 。 比 传统 分 析 表 大 一 个 或 两 个 数量 级 的 分 析 表 是 否 能 够 被 认真 考虑 是 个 问题 。 更 重要 的 是 ， 看 起 来 
并 不 真正 需要 扩展 的 超前 搜索 技术 。 也 就 是 说 , 用 于 定义 程序 设计 语言 的 文法 仅 需 要 一 个 超前 搜索 符号 。 
在 看 起 来 需要 额外 超前 搜索 符号 的 情况 下 ， 简 单 的 文法 变换 能 够 将 超前 搜索 符号 的 需求 缩减 为 一 个 单独 
的 符号 。 理 论 通 过 以 下 观察 结果 支持 实践 : 已 知 所 有 可 被 确定 分 析 的 语言 都 有 SLR(1) 文 法 (如果 使 用 结 
束 标记 ， 它 们 甚至 都 有 LR(0) 文 法 )。 这 暗示 未 来 的 程序 设计 语言 将 能 够 继续 利用 传统 的 单个 符号 超前 搜 
索 技术 进行 分 析 。 


6.12.2 优先 级 技术 


到 目前 为 止 我 们 已 经 研究 的 LR 式 语 法 分 析 技 术 都 相当 复杂 。 因 此 ， 它 们 看 来 起 不 可 能 是 第 一 种 被 
开发 和 研究 的 移 进 - 归 约 技术 。 而 且 ， 事实 上 ， 在 LR 技术 占据 支配 地 位 之 前 ， 一 大 类 优先 级 技术 
(precedence technique) 普 被 透彻 研究 并 广 记 使 用 。 

优先 级 技术 处 理 移 进 - 归 约 分 析 的 基本 问题 一 一 怎样 分 离 并 归 约 右 句 型 的 句柄 。 我 们 将 简要 讨论 两 
种 最 著名 的 优先 级 技术 : 简单 优先 (simple precedence) 和 算 符 优先 operator precedence )。 

我 们 将 要 讨论 的 简单 优先 版 本 由 Wirth 和 Weber (1966) 形式 化 。 该 技术 被 开发 用 于 分 析 Algol W 语 
言 。 简 单 优先 相当 简单 。 在 文法 符号 对 上 定义 三 种 优先 关系 ，< 、2 和 > 。 如 果 一 个 文法 是 简单 优先 
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文法 ， 则 一 对 符号 至 多 能 够 出 现 这 三 种 关系 中 的 一 种 。 非 正式 地 说 ，< 标记 句柄 的 开头 〔 左 端 )，2 界 
定 句柄 的 内 部 ， 而 > 则 界定 句柄 的 结尾 AW). 

这 些 关系 可 以 很 好 地 适应 移 进 - 归 约 分 析 器 。 在 符号 被 读 和 人 的 同时 ， 只 要 符合 e 或 和 关系 ， 它 们 就 
被 压 入 分 析 栈 中 。 当 栈 顶 符号 和 超前 搜索 符号 符合 > 关系 时 ， 句 柄 结尾 已 被 定位 。 随 后 符号 被 弹出 ， 直 
到 栈 顶 符号 和 最 后 弹出 的 符号 符合 < 关系 为 止 。 被 弹出 的 符号 形成 将 要 归 约 的 句柄 。 在 归 约 之 后 ， 产 生 
式 左 部 的 符号 通常 取代 了 栈 中 的 句柄 。 

一 旦 句柄 被 分 离 ， 对 于 哪个 产生 式 将 被 归 约 必须 没有 歧义 。 这 通过 要 求 惟一 可 北 性 质 (unique 
invertibility property) 来 保证 ， 该 性 质 是 指 两 个 产生 式 不 能 有 相同 的 右 部 。 给 定 惟一 可 逆 性 ， 分 离 句柄 
等 价 于 确定 正确 的 归 约 。 

作为 示例 ， 25 FE Gs: 


E 

F > FTIT 

T 一 ID (E) 

此 文法 是 G1 的 变 体 ， 其 中 添加 了 非 终 结 符 以 消除 优先 关系 冲突 。 文 法 中 添加 了 左 结束 标记 以 ( 通 
xb 关系 ) 分离 句柄 的 开头 。 可 以 为 Ge 计算 图 6-40 所 示 的 优先 表 。 (关于 如 何 计 算 优 先 关系 的 细节 ， 见 
Aho and Ullman 1972, #1, 6.2275.) 
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图 6-40 Gs 的 简单 优先 级 分 析 表 


图 6-41 举 例 说 明了 $ID+(ID+ID)$ 的 简单 优先 级 分 析 。 当 且 仅 当 输入 被 归 约 为 $E$ 时 ， 分 析 器 接受 输 
入 。 优 先 关系 仅 出 于 说 明 的 目的 而 给 出 ; 它们 并 未 被 实际 压 入 栈 中 。 


剩余 输入 




















1 $ID+(ID+ID)S 
2 $< 1D+(ID+ID)$ 
3 $< D> +(ID+iD)$ 
4 $T» +(ID+ID)$ 
5 $< F2 +(ID+ID)}$ 
6 $a F2+ < (ID--1D)$ 
7 $@ F2+0( 2 ID--ID)$ 
8 $« F24«(«IDo +ID)$ 
9 $oF2«2(«9To +ID) 
10 $o F2+< (0 FE +id)$ 
11 $4F2«o(eoF2«« ID)$ 
12 $«F£2««e(9F2««IDo 0 
13 $«F£2««(«9FS242To 
14 $o F240 (oF> B 
15 $< F24« (2E2 5 
16 $ œ F2+ œ (SES)> $ 
17 $< F2+2To $ 
18 $oF> $ 
19 $2E2 $ 
20 $2E2$ 


图 6-41 简单 优先 级 分 析 示 例 
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尽管 简单 优先 级 在 概念 上 比 LR 技 术 简 单 ， 但 它 有 许多 缺点 ， 主 要 是 它 所 能 分 析 的 文法 类 有 限 。 所 
有 简单 优先 文法 都 是 SLR(1) 的 ， 但 反之 并 不 成 立 。SLR(1) 文 法 相当 容易 书写 ,但 简单 优先 文法 却 非常 难 
以 构造 。 注 意 : 在 简单 优先 文法 中 不 允许 出 现 入 产生 式 ， 因 为 无 法 利用 优先 关系 正确 地 将 入 分 离 为 句柄 。 
进一步 ， 产生 式 是 惟一 可 逆 的 以 及 优先 关系 无 交集 这 两 条 要 求 使 得 优先 文法 比 相应 的 LR 文法 更 大 且 更 
脆弱 。 它 们 更 大 是 因为 新 的 非 终 结 符 对 于 消除 优先 冲突 通常 是 必需 的 。 它 们 脆弱 是 因为 即使 很 小 的 修改 
或 增补 都 会 引起 微妙 的 优先 冲突 。 事 实 上 ， 存 在 没有 简单 优先 文法 的 确定 性 语言 (它们 能 够 由 所 有 LR 
技术 分 析 )。 

在 给 出 了 简单 优先 的 缺点 之 后 ， 我 们 对 于 该 技术 被 SLR(1) 和 LALR(1) 取 代 就 不 会 感到 惊讶 。 简 单 优 
先 现在 通常 只 有 历史 意义 ， 尽 管 它 偶 尔 会 在 老式 的 编译 器 中 出 现 。 

算 符 优先 分 析 技 术 可 追溯 到 20 世 纪 60 年 代 早 期 ， 当 时 语法 分 析 仅 涉及 比 将 表达 式 从 中 组 翻译 为 前 组 
或 后 缀 形式 稍 多 的 东西 。 实 际 上 ， 算 符 优 先 主 要 是 程序 设计 语言 中 出 现 的 运算 符 优先 级 的 形式 化 。 当 分 
析 一 个 表达 式 时 ， 算 符 优 先 分 析 器 试图 分 离 可 粗略 地 等 价 于 句柄 的 简单 子 表达 式 。 仅 定义 在 终结 符 上 的 
算 符 优 先 关 系 完成 这 项 工作 。 基 本 上 ，Op1 < Op2， 如 果 运 算 符 Op2 比 Op1 有 更 高 的 优先 级 。 因 此 ， 
通常 + < *H* > +。 如 果 Op1 和 Op2 处 于 相同 的 优先 级 并 且 都 是 左 结合 的 ，Op1 > Op2。 括 号 强制 进 
行 分 组 ， 因 此 对 于 所 有 运算 符 和 标识 符 , Op 9 (, ( < Op, Op > ), H) > Op. 例如， 分 析 
$ID+(ID+ID)$， 有 | 

$«ID« («ID-«IDes)e $ 


其 中 < 和 。 分 离子 表达 式 。 类 似 地 ， 对 于 $ID*ID+ID*ID$,. 有 

$% ID*IDe + < ID*IDo $ 
其 中 再 次 强制 正确 的 分 组 。 

因为 算 符 优先 关注 终结 符 ， 所 以 包含 两 个 连续 非 终结 符 的 产生 式 是 被 禁止 的 。 这 上 比 简单 优先 更 具 限 
制 性 ， 而 简单 优先 更 通用 且 内 容 更 丰富 。 从 历史 上 看 ， RRR TAERE. 并 且 随 后 又 让 位 于 今 
天 使 用 的 LR 技 术 。 


6.12.3 一 般 的 上 下 文 无 关 分 析 器 


到 目前 为 止 我 们 已 经 描述 的 所 有 分 析 技 术 都 局 限于 上 下 文 无 关 文 法 的 某 个 子 集 。 通 常 ， 仅 允许 非 二 
义 文法 。 如 果 允 许 二 义 文法 ， 则 正确 性 的 保证 不 再 有 效 。 进 一 步 ， 由 于 超前 搜索 符号 是 固定 的 ， 因 此 仅 
有 确定 性 语言 和 文法 能 够 被 处 理 。 

偶尔 ， 我 们 也 会 需要 能 够 处 理 任意 文法 的 通用 上 下 文 无 关 分 析 器 。 已 知 最 佳 的 通用 上 下 文 无 关 分 析 
器 是 Earley 算 法 (Earley's algorithm), ， 由 Jay Earley (1970) 所 设计 。 Earley 算 法 可 以 被 视 为 LR(0) 分 析 
器 的 解释 性 版 本 。 它 比 我 们 已 经 研究 的 LR 式 技术 更 通用 ， 当 然 它 的 代价 昂贵 也 就 不 足 为 奇 。 普 通 的 语 


法 分 析 技术 (包括 LL、LR 和 优先 级 方法 ) 通常 在 线性 时 间 和 线性 空间 内 工作 ; Earley 算 法 有 时 需要 立方 


阶 的 时 间 和 四 次 方 阶 的 空间 ， 尽 管 这 种 非 线性 的 性 能 通常 发 生 在 分 析 超出 普通 分 析 器 能 力 的 文法 时 。 也 
存在 能 够 处 理 任意 上 下 文 无 关 文法 的 自 顶 向 下 语法 分 析 技 术 (Graham, Harrison, and Ruzzo 1980). 

不 像 LR(K) 分 析 ，Earley 算 法 从 不 需要 或 使 用 超前 搜索 符号 。 无 论 什么 时 候 ， 只 要 对 何 时 进行 归 约 
有 疑问 ， 将 平行 地 采取 所 有 可 能 的 动作 。 进 一 步 ， 我 们 不 预先 计算 任何 状态 或 自动 机 ， 而 是 在 分 析 进 行 
中 计算 并 操纵 项 目 集 ， 这 就 是 认为 该 算法 是 解释 性 的 原因 。 | 

在 Earley 算 法 中 ， 项 目 〈 加 点 产生 式 ) 通过 第 二 个 部 分 一 一 一 个 整 型 值 的 预测 指针 (prediction 
pointer) 来 拓 广 。 项 目的 预测 指针 表示 其 所 在 的 项 目 集 在 哪个 项 目 集中 被 预测 。 该 指针 是 必需 的 ， 因 为 
二 义 文 法 可 能 多 次 预测 相同 的 产生 式 以 表示 不 同 的 分 析 。 项 目 通过 与 普通 LR 式 分 析 器 几乎 相同 的 方式 
被 操纵 : 
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* 初始 项 目 是 S 一 。a, 0。( 初始 时 预测 拓 广 产生 式 ， 其 预测 指针 为 0， 其 中 0 是 状态 0 的 索引 。) 

* 如 果 状 态 i 中 包含 项 目 A 一 aeBB,j， 则 预测 B 一 *y, i。 预 测 指 针 为 i 是 因为 项 目 在 状态 i 中 被 预测 。 

。 如 果 状 态 i 中 包含 项 目 A 一 aeXB,j， 且 下 一 个 输入 符号 是 X， 则 将 A 一 aXeB,j 添 加 到 状态 i + 1 中 。 

* 如 果 状 态 i 中 包含 项 目 A 一 ys, j， 则 我 们 知道 该 产生 式 在 状态 j 中 被 预测 。 到 状态 j 并 查找 形 如 B 一 
a*Ap, k 的 项 目 。 将 形 如 B 一 aA*B,k 的 相应 项 目 添加 到 状态 i 中 。 该 操作 与 归 约 动作 性 质 相 同 ， 因 
为 已 匹配 的 产生 式 右 部 被 它 的 左 部 替换 ， 而 其 左 部 随后 被 移 进 。 

* 在 分 析 了 包含 n 个 记号 的 输入 后 ， 将 创建 n + 1 个 项 目 集 。 如 果 项 目 n 含 有 S 一 os, 0， 则 输入 是 有 
效 的 ， 因 为 输入 使 得 目标 符号 得 以 匹配 。 

作为 简单 的 示例 ， 考 虑 二 义 文 法 : 


S 5E 
E - E-«Ej|ID 


图 6-42 通 过 分 析 ID + ID + ID 举例 说 明了 Earley 算 法 。 该 输入 有 两 种 不 同 的 分 析 方法 ; 该 算法 可 以 同 
时 找 出 两 者 。 


S+Ee , 
EDES Eo 





i 图 6-42 Earley 算 法 示例 


因为 状态 5 中 包含 S 一 E+ 0， 所 以 我 们 知道 输入 是 有 效 的 。 事 实 上 ， 因 为 该 输入 有 两 种 不 同 的 分 析 
方法 ， 所 以 该 项 目 被 添加 了 两 次 。 项 目 E 一 E + E ,0 的 完成 导致 拓 广 产生 式 被 完成 。 这 对 应 于 将 输入 分 
FAUD + ID) + ID。 项 目 E > E+E s, 2 的 完成 导致 状态 2 中 的 E -> ID “2 被 完成 ， 而 它 又 依次 导致 拓 广 
产生 式 被 完成 。 这 对 应 于 将 输入 分 析 为 ID + (ID + 1D). | 

通常 ， 为 提取 一 个 分 析 ， 一 种 实现 方法 是 添加 “线索 ”， 将 一 个 项 目 连 接 到 添加 它 的 那个 已 完成 的 
项 目 。 如 果 一 个 项 目 被 添加 了 多 次 ， 则 不 同 的 线索 指向 不 同 的 分 析 。 

从 我 们 的 简单 示例 中 容易 看 出 随 着 分 析 越 来 越 多 的 输入 ， 项 目 集 可 能 变 得 更 大 。 这 是 因为 相同 的 加 
点 产生 式 可 以 出 现 多 次 ， 其 中 带 有 不 同 的 预测 指针 。 状 态 i 的 大 小 可 能 正比 于 i， 因 此 在 n 个 状态 中 的 项 目 
数 可 能 正比 于 nz。 类 似 地 ， 因 为 二 义 性 ， 所 以 一 个 项 目 可 以 被 添加 多 次 。 要 小 心 ， 可 能 获得 正比 于 n° 的 
分 析 暑 间 。 更 快 (ns27) 但 是 也 更 复杂 的 通用 上 下 文 无 关 分 析 器 由 Valiant (1975) 创 建 。 

在 LR(0) 文 法 的 情形 中 ，Earley 算 法 仅 需要 线性 的 时 间 和 空间 ， 但 会 有 非常 多 的 额外 开销 因素 ， 因 
为 在 Earley 算 法 的 每 一 步 ， 必 须 操 纵 并 存储 项 目 ， 而 这 些 项 目 对 普通 的 LR(0) 分 析 器 来 说 是 被 预先 计算 出 
来 的 。 

Earley 算 法 曾 被 实际 使 用 过 吗 ? 实际 上 ， 它 的 空间 和 时 间 需 求 使 其 过 于 昂贵 ， 也 只 在 实验 性 系统 中 
会 有 价值 。 事 实 上 ， 需 要 二 义 文法 或 非 限制 性 文法 的 应 用 通常 用 像 Earley 算 法 这 样 的 通用 语法 分 析 器 做 
实验 。 有 此 类 需求 的 应 用 领域 包括 自然 语言 处 理 、 自 动 代码 生成 (Christopher et al. 1984) 以 及 可 由 用 
户 扩 展 的 语言 开发 。 已 知 有 许多 可 以 改进 Earley 算 法 的 方法 (Graham, Harrison, and Ruzzo 1980, Aretz 
1989). 
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begin begin SimpleStmt ; end ; SimpleStmt ; end $ 
使 用 图 6-2 和 图 6-3 的 action 和 go _to 表 跟踪 图 6-1 的 移 进 - 归 约 驱动 程序 的 执行 。 


. 下列 产生 式 已 经 用 动作 符号 进行 了 扩充 ， 以 规定 一 个 简单 while 循 环 的 翻译 : 


«stmt» — while sloop head «expr» #test_expr 
loop «stmts» end loop ; #loop_end 


将 该 产生 式 改 写 为 适合 于 移 进 -~ 归 约 分 析 的 形式 。 


3， 为 下 列 文法 构造 CFSM: 


<prog> — «block» $ 

«block» — begin «stmt list» end 
«stmtlist- —— «stmt list» ; «stmt» 
«stmtlist» | — «stmt» 

«stmt» — «block» 

«stmt» — <Vaf> := «expr» 
«var» — ID 

«var» — ID{<expr> } 
«expri» — «expr» + «term» 
«expr» — «temm» 

«term» — «Wan 

«term» — («expr» ) 


给 出 相应 的 go_to 表 。 


4. 下 列 文法 中 有 哪些 不 是 LR(0) 的 ? 解释 为 什么 。 


a. S —. StList $ 
StList — StList ; Stmt 
StList — Stmt 
Stmt ~ null 


c. S — StList $ 
StList — StList ; StList 
StList 一 Stmt 
Stmt — null 


都 恰好 有 一 个 基础 项 目 。 


6， 构 造 相应 于 练习 3 的 文法 的 LR(1) 机 器 。 
7， 下 列 文法 中 有 哪些 是 LR(1) 的 ”哪些 是 LALR(1) 的 ?哪些 是 SLR(1) 的 ? 在 每 种 情形 下 都 证 明 你 的 分 类 


是 恰当 的 。 


a SIDE; 
E 一 上 +P 
EP 
P ID 
P => (E) 

P - D:=E 


 0'0mmm2o-2om?»ü 
VUMMSssS 

+ + Qo 

vy M 

> > 


pllidlid 


S5 


b. S -> StList $ 


StList — Stmt ; StList 
SiList 一 Stmt 
Stmt — null 


. $8 > StList $ 


StList — null StTail 
StTail — A 
StTail — ; StList 


.证 明 相 应 于 LL(1) 文 法 的 CFSM 有 如 下 性 质 : 如 果 所 有 非 终结 符 都 推导 出 不 同 于 和 的 串 ， 则 每 个 项 目 集 


Pre—> Pre ID := 
Pre 一 À 
E—o>E+P 
E 一 中 

P + ID 

P = (A) 





15. 


TVUOMMPp rw 


tlilillld 


证 明 LR(1) 项 目的 超前 搜索 部 分 是 精确 的 。 即 ， 


<TUUUMMPPN 
blibdllilddd 


—— pie, et, A i dS 
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Oo 
Ww 
> > 


umm 
+ 
U 


<><> 


OcpepU 


(a) 如 果 状 态 s 包 含 一 个 LR(1) 项 目 A 一 o * a， 则 存在 最 右 推 导 S — mpBAaw => m Baaw， 其 中 在 移 
进 Ba 后 到 达 状 态 S。 
(b) 如 果 存 在 最 右 推 导 S — 54 BAaw > m Baaw， 则 存在 状态 s， 它 在 移 进 Ba 之 后 到 达 ， 其 中 包含 项 


HA >a’, 8。 


构造 相应 于 练习 3 的 文法 的 SLR(1) action 表 。 


了 到 为 练习 6 构造 的 LR(1) 机 器 并 列 出 同心 状态 。 合 并 同心 状态 以 构造 LALR(1) 机 礁 。 


， 从 练习 3 中 所 构造 的 CFSM 开 始 , 使 用 图 6-25 的 超前 搜索 符号 传播 算法 来 确定 LALR(1) 超 前 搜索 符号 。 


比较 用 这 种 方法 计算 出 的 超前 搜索 符号 和 练习 10 中 通过 状态 合并 计算 出 的 那些 超前 搜索 符号 。 
修改 图 6-25 的 超前 搜索 符号 传播 算法 ， 把 (状态 ， 项 目 ) 偶 对 而 不 是 (状态 , 项目， 超前 搜索 符号 ) 
三 元 组 压 人 栈 中 。 解 释 为 什么 你 修改 过 的 算法 与 原始 算法 传播 相同 的 超前 搜索 符号 集 。 


， 在 6.5.1 节 中 描述 反 向 搜索 超前 搜索 符号 传播 算法 时 ， 曾 注意 到 一 个 归 约 序列 可 能 在 移 进 超前 搜索 符 


号 之 前 发 生 。 编 写 一 个 能 够 正确 处 理 归 约 序列 的 反 向 搜索 传播 算法 。 利 用 练习 3 的 CFSM 举 例 说 明 


你 的 算法 。 


图 6-30 举 例 说 明了 一 个 可 以 导致 反 向 搜索 传播 算法 失败 的 CFSM 状 态 。 修 改 你 在 练习 13 中 创建 的 算 
法 ， 以 正确 地 处 理 图 6-30 中 说 明 的 问题 。 你 修改 过 的 算法 对 于 所 有 CFSM 和 文法 都 能 够 计算 正确 的 


超前 搜索 符号 吗 ? 

下 面 的 文法 不 是 LALR(1) 的 : 
<prog> — «block» 
«block» — begin «decl list» «stmt list» end 
«decllist» — «decl» «decl list» 
«decllist» — A mE 
«stmt list» — «stmt list» «stmt» 
«stmt list» — — «stmt» 
«deci» =- ID: <type>; . 
<type> — ID 
<type> — array ( «bound» ) of «type» 
«bound» 一 iD 
«bound 一 <Bxpr> 
<Stmt> — ID := <expr> ; 
<stmt> — «bi 
«stmt» > ID: «stmt» 
«expr» 一 «expr» + «pri» 
«expr» 一 «pri» 
«pri» — («expr» ) 
«pri» — ID 
«pri» > ID+ 


将 该 文法 改写 为 可 被 LALRGen 或 者 Yacc 读 取 的 形式 


。 使 用 你 所 选择 的 语法 分 析 器 生成 器 确定 出 故 


210 





212 


20. 


21. 


22. 


23. 


24. 


25. 


26. 


27. 


28. 


29. 


30. 


134 | || £6* 


障 的 地 方 。 然 后 将 这 些 产 生 式 重 写 为 有 效 的 LALR(1) 形 式 。 可 以 根据 需要 改变 产生 式 ， 但 由 你 修改 
的 文法 所 定义 的 语言 必须 和 原始 文法 所 定义 的 语言 相同 。 

为 图 6-33 所 定义 的 MicroPlus 的 表达 式 结构 编写 上 下 文 无 关 文 法 。 你 写 的 文法 必须 遵守 图 6-33 中 所 示 
的 运算 符 优先 级 和 结合 性 。 





.利用 Yacc 风 格 的 优先 级 和 结合 性 定义 ， 定 义 附录 A 中 所 规定 的 Ada/CS 的 表达 式 结构 。 注 意 除 关系 运 


算 符 外 的 所 有 二 元 运算 符 都 是 左 结合 的 。 如 果 你 能 够 使 用 运行 Yacc 的 计算 机 ， 就 请 测试 你 的 定义 。 


.在 Yacc 中 不 可 能 给 出 把 左 结合 和 右 结 合 运算 符 放 在 同一 优先 级 的 优先 级 和 结合 性 定义 。 这 是 一 个 朴 


漏 ， 还 是 有 某 种 原因 不 允许 这 样 的 定义 ? 
假定 有 一 个 Pascal 式 的 语言 ， 拥 有 如 下 列 结 构 : 


if <expr> then <stmt> 
if <expr> then <stmt> else <stmt> 
while <expr> do <stmt> 


给 出 能 够 定义 这 些 结构 并 正确 处 理 悬 空 else 问 题 的 非 二 义 LALR(H) 文 法 。 

扩展 图 6-1 的 移 进 - 归 约 驱动 程序 ， 以 正确 处 理 利 用 6.8 节 的 技术 优化 分 析 表 时 所 创建 的 L 类 型 条 目 和 
默认 条 目 。 

通过 LALRGen， 利 用 parsetable 选 项 运行 Ada/CS 定 义 。LALRGen 使 用 L 类 型 条 目 来 消除 单独 的 归 
约 状 态 。 它 不 删除 默认 动作 。 从 parsetable 选 项 所 产生 的 列表 中 估算 通过 消除 单独 的 归 约 状态 节 
省 了 多 少 空间 。 如 果 从 分 析 表 中 删除 默认 状态 ， 则 又 能 够 多 节省 多 少 空间 ? 

修改 图 6-19 的 SLR(D 分 析 表 以 包含 对 单位 归 约 的 优化 。 即 ， 修 改 后 的 分 析 表 不 应 当 执行 一 系列 的 单 
位 归 约 ， 而 是 执行 折 登 此 归 约 链 的 一 次 单独 的 归 约 。 | | 

在 6.9 节 中 概括 叙述 了 -个 LR(1) 状 态 合并 算法 。 只 要 不 引入 分 析 动 作 冲突 ， 它 就 会 合并 同心 的 
LR(D) 状 态 。 如 果 两 个 状态 的 合并 导致 其 后 继 状 态 的 合并 冲突 ， 则 该 算法 回调 并 取消 导致 该 非法 合 ， 
并 的 前 驱 状 态 的 合并 。 | 

详细 说 明 实 现 上 述 方法 的 算法 。 举 例 说 明 你 的 算法 在 下 列 文法 上 的 操作 : 

— ( Exp1) 

一 [Exp!] 

— (Exp2] 

一 [Exp2) 

-> {Expt} 

— < Expl» 

— {Exp2 > 

> < Exp2)} 


Exp1 — #ID 
Exp2 一 #1ID 


用 于 合并 LR(1) 状 态 的 最 普通 的 标准 是 弱 相 容 性 ， 如 6.9 节 中 的 定义 。 为 练习 23 的 文法 创建 LR(1D) 机 
器 ， 并 证 明 可 以 利用 弱 相 容 性 对 状态 进行 合并 。 | 

证 明 当 优化 LR(D 分 析 器 时 合并 LR(D) 状 态 的 次 序 可 能 会 导致 很 大 的 差别 。 也 就 是 说 ， 如 果 以 某 种 次 
序 合 并 状态 ， 则 优化 过 的 LR(1) 机 器 的 大 小 可 能 比 选择 某 个 其 他 次 序 时 更 大 。 

证 明 如 果 一 个 LR(D 状 态 的 基础 项 目 是 弱 相 容 的 ， 则 该 状态 中 的 所 有 项 目 必定 是 弱 相 容 的 。 

证 明 任 意 没 有 入 产生 式 的 LL(1) 文 法 是 LR(0) 的 。 

证 明 存在 不 是 LL(1) 的 LR(O0) 文 法 、SLR(1) 文 法 以 及 LALR(1D) 文 法 。 

通常 ，LALR(1) 分 析 器 产生 规范 分 析 或 最 右 分 析 。 如 何 利用 LALR(1) 分 析 器 产生 最 左 分 析 ( 像 LL(1) 
分 析 器 那样 ) ? 如 果 已 知 所 分 析 的 文法 是 LL(1) 的 ， 问 题 会 被 简化 吗 ? 

假定 有 一 个 使 用 LL(1) 分 析 表 的 可 以 工作 的 编译 器 。 根 据 经 验 ， 儿 乎 所 有 的 LL(1) 文 法 同时 也 是 
LALR(1) 的 。 因 此 ， 将 LL(1D) 分 析 器 替换 为 LALR(1) 分 析 器 应 当 是 可 行 的 。 必 须 做 什么 才能 保证 该 过 
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换 对 编译 器 的 其 余部 分 是 透明 的 ? 
证 明 所 有 LL(1) 文 法 也 是 LR(1) 的 。 
证 明 存 在 是 SLR(k+1) 和 LALR(K+1) 以 及 LR(kK+1) 的 、 但 不 是 SLR(K) 或 LALR(K) 或 LR(K) 的 文法 。 
构造 拥有 下 列 所 有 性 质 的 文法 : 
。 它 是 SLR(3) 的 、 但 不 是 SLR(2) 的 。 
。 它 是 LALR(2) 的 、 但 不 是 LALR(1) 的 。 
*。 它 是 LR(1) 的 。 
证 明 每 个 SLR(1) 文 法 也 是 LALR(1) 的 ， 并 且 每 个 LALR(1) 文 法 也 是 LR(1) 的 。 如 果 使 用 k 个 符号 而 不 
是 一 个 符号 的 超前 搜索 ， 这 些 包含 关系 还 成 苹 吗 ? 
考虑 下 列 拥有 O(m) 个 产生 式 的 文法 : 

S -> X% 2, 1«i«n 

X oyX%ly t«i«nisj 
证 明 该 文法 的 CFSM 有 O(2") 个 状态 。 该 文法 是 SLR(1) 的 吗 ? | 
利用 图 6-40 的 分 析 表 ， 当 输入 为 $((ID+ID)+(ID+ID))$ 时 ， 跟 踪 一 个 简单 优先 分 析 器 的 执行 。 
证 明 所 有 简单 优先 文法 都 是 SLR(1) 的 。 这 可 以 通过 证 明 以 下 命题 来 完成 : 利用 SLR(1) 式 的 超前 搜索 
符号 不 可 解决 的 移 进 - 归 约 或 归 约 - 归 约 冲突 必定 导致 三 种 简单 优先 关系 间 的 冲突 ， 或 者 必定 违反 
简单 优先 文法 的 惟一 可 逆 性 质 。 | 
当 使 用 下 列 文法 分 析 aaa 时 ， 给 出 Earley 算 法 所 创建 的 状态 : 


A= AB |B 
B=- BAJ] A 
A— a 
Bob 


当 分 析 其 些 文法 时 ，Earley 算 法 将 总 是 产生 大 小 限制 在 某 常 数值 之 内 的 状态 ， 而 不 依赖 于 所 分 析 的 
输入 的 大 小 。 这 样 的 文法 被 称 为 爱 限 状态 文法 (bounded state grammar). 我 们 不 难 证 明 Eariey 算 法 
能 够 在 线性 时 间 内 分 析 受 限 状态 文法 。 又 已 知 Earley 算 法 能 够 在 线性 时 间 内 分 析 所 有 LR(0) 文 法 。 是 
否 所 有 的 LR(0) 文 法 都 必须 是 受 限 状 态 文法 ? | 
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Ble 语义 处 理 


几乎 所 有 的 现代 编译 器 都 是 语法 制导 的 (syntax-directed)。 即 ， 随 着 语法 分 析 器 识别 源 程 序 的 语法 
结构 ， 由 这 些 语法 结构 来 驱动 编译 过 程 。 语 义 例 程 一 一 编译 器 解释 程序 含义 (语义 ) 的 部 分 一 一 基于 程 
序 的 语法 结构 执行 解释 工作 。 

在 由 编译 器 所 完成 的 处 理 中 ， 这 些 例 程 实际 上 扮演 双重 角色 ， 它 们 完成 编译 的 分 析 任 务 并 随后 开始 
综合 任务 。 分 析 ， 即 语义 例 程 将 从 声明 获得 的 语义 信息 与 标识 符 的 所 有 使 用 相关 联 ， 并 检查 程序 注 足 语 
言 中 的 所 有 静态 语义 约束 。 静 态 语义 检查 的 例子 包括 确定 程序 中 使 用 的 所 有 变量 都 被 声明 ， 以 及 表达 式 
中 的 操作 数 类 型 与 相应 运算 符 相 容 。 综 合 是 以 生成 程序 的 中 间 表 示 (Intermediate Representation, IR) 或 
实际 的 目标 代码 开始 的 。 语 义 例 程 由 综合 步骤 得 名 ， 因 为 这 些 例 程 的 输出 必须 反映 由 词法 分 析 器 和 语法 
分 析 器 所 识别 的 语法 结构 。 由 于 翻译 过 程 的 语法 制导 特性 ， 语义 例 程 通常 与 上 下 文 无 关 文 法 的 单独 产生 
式 或 语法 树 的 子 树 相 关联 。 


7.1 语法 制导 翻译 


7.1.1 使 用 分 析 的 语法 树 表示 


我 们 首先 看 看 最 一 般 的 方法 来 开始 对 语义 处 理 的 讨论 ， 随 后 由 此 考虑 特殊 的 实现 选择 。 因为 我 们 的 
翻译 过 程 归 类 为 语法 驱动 的 ， 概 念 性 的 方法 首先 考虑 我 们 对 于 在 语法 分 析 器 检查 表示 一 个 程序 的 词法 记 
号 时 所 识别 的 语法 结构 做 些 什 么 。 在 先前 讨论 自 顶 向 下 和 自 底 向 上 的 语法 分 析 的 章节 中 ， 我 们 看 到 由 语 
法 分 析 器 所 生成 的 动作 序列 可 以 解释 为 一 系列 构造 分 析 树 的 指令 。 因 此 在 语义 处 理 的 一 般 性 方法 中 第 一 
步 是 取得 语法 分 析 动作 序列 并 用 它们 来 构造 输入 程序 的 语法 树 〈syntax tree) 表示 。 典 型 地 ， 访 分析 树 
并 非 由 语法 分 析 器 所 识别 的 字面 上 的 分 析 树 。 例 如 ， 它 不 需要 在 表达 式 子 树 中 包含 代表 非 终 结 符 的 中 间 
结 点 ， 这 些 非 终结 符 通常 被 引入 程序 中 用 于 描述 运算 符 优先 级 和 结合 性 。 它 确实 包含 了 足够 的 结构 去 哎 
动 语义 处 理 ， 甚 至 可 以 重新 生成 产生 它 的 输入 。 这 样 的 树 通常 被 称 为 抽象 语法 树 〈《abstract syntax tree), 
以 表明 它 和 实际 〈 具 体 ，concrete) 语法 和 分 析 树 的 关系 。 图 7-1 给 出 一 条 赋值 语句 的 抽象 语法 树 表示 ， 
在 该 语句 的 右边 含有 算术 表达 式 。 | 

fa ET RIN 语义 处 理 可 以 通过 对 树 的 一 次 或 多 次 遍历 来 完成 。 两 种 语义 处 理 任 务 一 一 静态 语义 
可 以 利用 依附 于 语法 树 结 点 的 语义 属性 来 完成 。 当 语义 处 理 开 始 时 ， 仅 有 的 可 
用 屋 性 是 那些 依附 于 语法 树 上 与 拥有 语义 值 的 词法 记号 (例如 ， 标记 符 和 常量 ) 对 应 的 叶 结 点 的 属性 。 
这 样 的 初始 状态 在 图 7-2 中 说 明 。 

对 于 大 多 数 语言 ， 以 后 序 遍 历来 访问 结 点 的 树 遍历 方法 可 以 将 语义 属性 传 遍 整 棵 树 并 同时 进行 静态 
语义 检查 。 语 义 属性 的 传播 (propagation) 包括 如 下 动作 ;处理 声 明 以 创建 符号 表 ， 在 符号 表 中 查找 标 
识 符 以 将 相关 的 属性 信息 依附 于 语法 树 的 适当 结 点 上 ， 以 及 检查 运算 符 的 参数 类 型 以 确定 其 结 洒 类 型 。 
来 自 声明 (符号 表 ) 的 信息 自 顶 向 下 地 传播 并 穿越 语句 和 表达 式 子 树 。 语 义 检 查 和 代码 生成 所 用 到 的 表 
达 式 类 型 信息 通常 自 底 向 上 传播 。 所 有 属性 传播 完成 之 后 ， 树 被 称 为 是 经 过 修饰 的 (decorated)， 而 且 
它 包含 足够 的 信息 驱动 代码 生成 。 
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id N Id(Y) S 
C ld * id(1) 
Const Id Const(3) id(X) 
图 7-1] Y :=3+X+I 的 抽象 语法 树 图 7-2 带 有 初始 属性 的 Y :=3*X+| 
的 抽象 语法 树 


在 以 上 示例 中 ， 所 有 标识 符 都 必须 在 符号 表 中 查找 以 确定 它们 的 类 型 和 存储 地 址 等 信息 。 这 些 信 
BWA (或 符号 表 条 目的 引用 ) 随后 成 为 标识 符 结 点 的 属性 。 一 旦 这 些 属性 可 用 ， 我 们 就 能 够 确定 操 
作 3 * X 的 合法 性 ， 并 且 ， 如 果 合 法 ， 还 可 以 确定 它 的 结果 类 型 。 此 后 ， 对 第 二 个 表达 式 也 可 以 做 同样 

218) ”的 事情 ， 而 且 最 终 得 以 检查 整个 赋值 操作 的 合法 性 。 

有 两 类 静态 语义 检查 (与 属性 传播 相互 作用 )。 某 些 检查 完全 依赖 于 被 传播 的 语义 属性 。 对 于 赋值 
运算 两 边 的 类 型 相 容 性 检查 就 是 一 个 例子 。 其 他 的 检查 则 将 来 自 语法 树 的 结构 信息 和 语义 信息 相 结合 。 
将 包含 在 过 程 调用 中 的 实 参 数目 (结构 信息 ) 与 其 声明 中 的 形 参 数目 (根据 过 程 名 传播 而 来 的 语义 信息 ) 
相 比 较 就 是 后 者 的 一 个 例子 。 

语义 处 理 的 翻译 任务 基于 语法 树 的 另 一 次 遍历 。 与 每 个 结 点 相关 联 的 语义 属性 是 在 翻译 过 程 中 使 用 
的 数据 ， 而 翻译 则 实质 上 由 语法 树 的 结构 所 驱动 。 翻 译 的 输出 可 以 是 多 种 形式 中 的 任意 一 种 。 可 以 由 这 
种 方式 直接 输出 机 器 代码 ;可 以 生成 某 些 线性 化 的 中 间 表 示 (如 第 二 章 中 见 到 的 元 组 ) ; 也 可 以 将 树 本 
身 以 及 代码 生成 属性 (code generation attribute) 用 于 优化 器 或 代码 生成 器 的 输入 。 

使 用 属性 文法 (attribute grammar) 符号 可 以 形式 化 地 描述 这 种 以 语法 树 结构 和 树 的 多 记过 历 为 中 
心 来 组 织 编 译 器 的 方法 。 属 性 文法 是 上 下 文 无 关 文法 的 扩展 ， 其 中 属性 与 产生 式 中 的 每 个 文法 符号 相关 
E, 而 且 附 属于 每 个 产生 式 的 规则 将 用 来 计算 属性 值 。 属 性 信息 可 以 从 树 的 叶 结 点 向 上 流动 ( 综 会 属性 ， 
synthesized attribute) 或 者 从 高 层 的 非 终 结 符 向 下 面 的 叶 结 点 流动 (继承 属性 ，inherited attribute ) 。 属 
性 的 计算 规则 可 以 包含 以 上 讨论 的 所 有 动作 ， 如 静态 语义 检查 ， 甚 至 代码 生成 。 我 们 将 在 第 14 章 里 更 加 
详尽 地 定义 和 讨论 属性 文法 以 及 它们 在 构造 多 遍 编 译 器 中 的 用 途 。 | 

从 第 10 章 到 第 13 章 ， 我 们 将 考查 实现 各 种 程序 设计 语言 特性 的 技术 。 我 们 的 组 织 框架 将 根据 我 们 假 
定 的 直接 由 语法 分 析 器 调用 的 语义 例 程 来 定义 这 些 技 术 。 在 大 多 数 场合 中 ， 这 些 技术 通常 是 有 用 的 ， 无 
论语 义 动 作 是 直接 由 语法 分 析 器 调用 还 是 由 树 遍历 例 程 调用 。 


7.1.2 编译 器 组 织 的 候选 形式 


作为 讨论 编译 器 组 织 的 基础 ， 考 虑 图 7-3， 那 个 在 第 1 章 中 首先 出 现 的 编译 器 结构 图 。 图 中 所 示 的 编 
译 器 组 件 能 够 以 许多 不 同 的 方式 连接 起 来 ， 形 成 本 节 中 所 要 讨论 的 编译 器 组 织 的 选项 集 。 在 讨论 中 ， 分 
析 (analysis) 指 编译 器 通过 词法 分 析 器 、 语 法 分 析 器 和 语义 例 程 的 静态 语义 检查 组 件 所 执行 的 分 析 任 
&. (Hb, £4 (synthesis) 指 由 生成 某 种 程序 表示 的 语义 例 程 组 件 、 优 化 器 和 代码 生成 器 所 执行 的 

219| 综合 任务 。 我 们 将 考虑 六 种 组 织 选项 。 

一 遍 完 成 分 析 和 综合 

在 普通 的 一 遍 编 译 器 (one-pass compiler) 中 ， 分 析 和 综合 将 在 单 遍 处 理 中 进行 。 词 法 分 析 、 语 法 分 
析 、 检 查 以 及 到 目标 机 器 代码 的 翻译 是 交织 在 一 起 的 。 不 产生 源 代码 的 显 式 中 间 表 示 。 这 种 方法 基本 上 是 
第 2 章 中 Micro 编 译 器 所 使 用 的 方法 ， 并 且 它 极其 类 似 于 在 关于 语义 例 程 的 各 章 中 所 使 用 的 模型 ， 主 要 区 别 
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在 于 它 生 成 目标 机 器 代码 而 不 是 元 组 。 这 种 改变 可 以 相当 透明 地 通过 由 语义 例 程 所 调用 的 generate( ) 例 
程 产生 相应 的 目标 代码 而 不 是 元 组 来 完成 。 因 此 generate( ) 例 程 定义 了 代码 生成 器 的 接口 。 


中 间 表 示 





源 程 序 词法 记号 


字符 流 





符号 和 
RERO 


(由 编译 器 的 所 
有 阶段 使 用 ) 


上 且 标 机 器 代码 
图 7-3 语法 制导 的 编译 器 结构 | 


在 代码 生成 器 中 ， 临 时 变量 必须 被 恰当 地 映射 到 寄存 器 ， 而 且 必 须 选 择 与 元 组 运算 符 对 应 的 代码 序 
列 。 因 为 代码 生成 器 实际 上 被 限制 为 一 次 仅 看 一 条 元 组 ， 几乎 没有 重要 的 优化 能 够 被 执行 。 某 些 在 线 寄 。 [220 | 


， 存 器 管理 有 可 能 消除 元 余 负 担 。 





利用 generate( ) 例 程 作为 代码 生成 器 接口 使 得 编译 器 的 分 析 部 分 和 目标 机 器 保持 相对 独立 。 然 而 ， 
给 定 的 语义 例 程 可 能 不 仅 牵涉 一 个 generate( ) 调 用 ， 而 且 它 对 将 要 生成 的 代码 的 视野 比 代码 生成 器 更 
加 宽广 。 例 如 ， 分 配 临时 变量 的 语义 例 程 通常 知道 一 些 该 临时 变量 最 终 是 如 何 使 用 的 。 如 果 目 标 机 器 的 
客 存 器 集合 不 是 一 致 的 ， 那 么 这 样 的 信息 对 于 优化 临时 变量 和 寄存 器 之 间 的 映射 可 能 至 关 重要 。 至 少 ， 
这 意味 着 应 当 有 相应 于 目标 机 器 寄存 器 类 的 临时 变量 类 ， 以 使 得 代码 生成 器 能 够 利用 原本 仅 对 语义 例 程 
可 用 的 信息 。 这 种 设计 决策 使 得 编译 器 的 分 析 阶段 较 少 依赖 于 目标 机 器， 而 又 使 简单 的 编译 器 能 够 生成 
高 质量 的 代码 。 

没有 独立 代码 生成 器 的 一 这 编 译 器 也 十 分 普 作 。 这 些 编译 器 在 语义 例 程 中 直接 包含 了 做 出 所 有 代码 
后 成 决策 的 代码 。 某 些 分 配 寄存 器 及 处 理 目标 机 器 寻 址 模式 和 指令 格式 等 细节 的 支撑 例 程 也 将 被 使 用 ， 
但 像 指令 选择 这 样 的 基本 任务 将 直接 在 语义 例 程 中 执行 。 这 些 编译 器 或 许 能 生成 稍 好 一 些 的 代码 ， 或 者 
它们 执行 效率 更 高 一 些 ， 但 缺乏 目标 机 器 独立 性 使 它们 非常 难以 移植 或 再 目标 (retarget)。 
一 记 编 译 器 加 完 孔 优化 

改善 简单 的 一 遍 编 译 器 所 生成 的 代码 质量 的 一 条 有 效 途 径 是 添加 一 遍 窥 孔 优化 。 罕 孔 优化 在 第 15 章 
中 有 更 为 详细 的 描述 。 为 了 此 处 的 讨论 ， 有 必要 了 解 这 样 的 优化 器 在 生成 的 机 器 代码 上 执行 一 过 的 情况 : 

它 每 次 仅 查 看 少数 几 条 指令 〈 罕 孔 优化 由 此 得 名 ) ， 试 图 通过 选择 更 好 的 指令 或 更 有 效 利用 寄存 器 和 如 

址 模式 来 改进 输出 的 代码 。 

“也 优化 器 在 消除 由 代码 生成 器 的 不 同调 用 所 生成 的 连续 代码 段 之 间 的 “ 毛 边 ”上 特别 有 效 。 JIL 
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优化 器 的 使 用 允许 代码 生成 器 在 某 种 程度 上 更 简单 一 些 ， 因 为 它 可 以 更 少 地 关注 正在 生成 的 代码 所 处 的 
上 下 文 。 
一 遍 分 析 和 iR 综 合 加 一 这 代码 生成 

一 遍 分 析 和 IR 综 合 加 一 遍 代码 生成 是 第 10~13 章 中 概述 的 语义 例 程 中 所 假定 的 组 织 方式 。 显 式 的 中 
间 代 码 表示 需 用 来 作为 与 代码 生成 器 的 接口 。 阴 通常 是 线性 的 . 就 像 我们 使 用 的 元 组 。 与 单 遍 方法 相 比 ， 
这 种 组 织 方 式 的 主要 优点 是 灵活 性 。 代 码 生 成 器 可 以 简单 地 每 次 查看 一 个 元 组 ， 就 像 在 刚刚 讨论 的 带 窥 
孔 优 化 的 单 遍 组 织 方式 中 一 样 。 此 外 ， 由 于 存在 显 式 的 中 间 表 示 ， 代 码 生 成 器 也 可 以 检查 任意 数量 的 元 
组 以 便 做 出 代码 生成 决策 。 这 些 代码 生成 选项 的 更 多 细节 在 第 15 章 中 给 出 。 

灵活 性 所 带 来 的 一 个 优点 是 添加 IR 优 化 过 程 的 能 力 以 及 目标 机 器 与 前 端 间 的 更 大 独立 性 。 当 然 ， 添 
加 优化 器 会 将 编译 器 变 为 另 一 种 组 织 方式 -一 多 遍 综合 。 重 要 的 是 ， 显 式 中 间 表 示 的 存在 允许 做 出 这 样 
的 改变 而 同时 对 现存 的 前 端 和 代码 生成 器 的 影响 较 少 或 者 没有 影响 。 

使 前 端 与 目标 机 器 保持 相对 独立 是 有 利 的 ， 因 为 它 使 得 再 目标 一 个 编译 器 尽 可 能 地 简单 。 前 端的 目 
标 机 器 无 关 性 是 它 与 代码 生成 器 的 接口 的 目标 机 器 无 关 性 的 函数 。 分 离 的 代码 生成 过 程 将 接口 严格 地 限 
制 为 中 间 表 示 所 提供 的 接口 。 因 此 ，IR 的 机 器 无 关 性 决定 了 一 个 使 用 这 种 组 织 方式 构造 的 编译 器 再 目标 
的 难度 。 
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下 面 将 要 讨论 的 两 种 供 选 择 的 组 织 方式 是 多 遍 分 析 和 多 遍 综 合 。 顾 名 思 义 ， 这 些 并 非 组 织 完 整编 译 
器 的 方式 ， 而 是 用 来 组 织 分 析 或 综合 组 件 的 方式 。 它 们 可 以 与 更 简单 的 综合 和 分 析 组 件 一 起 使 用 。 

有 多 种 理由 来 选择 多 遍 分 析 这 种 组 织 方 式 。 历 史上 ， 多 遍 分 析 用 于 那些 需要 适应 极度 有 限 地 址 空间 
的 编译 器 中 。 在 这 种 编译 器 中 ， 词 法 分 析 器 自身 作为 一 遍 ， 产 生 表示 词法 记号 流 的 文件 作为 对 源 程序 分 
析 的 结果 。 标 识 符 和 常量 由 词法 分 析 器 放 入 符号 表 中 , 因此 在 词法 记号 文件 中 仅 需要 它们 最 简单 的 表示 。 
语法 分 析 器 也 是 单独 的 一 遍 ， 产 生 即 将 调用 的 语义 动作 流 或 分 析 树 的 某 种 隐 含 相同 信息 的 线性 化 表示 。 
如 同 词法 分 析 器 ， 语 法 分 析 器 的 输出 被 存储 在 辅助 存储 器 中 。 由 语法 分 析 器 驱动 的 声明 处 理 和 静态 语义 
检查 可 以 在 一 遍 或 两 遍 分 析 中 实现 ， 这 依赖 于 空间 限制 以 及 被 编译 的 语言 的 符号 表 处 理 需 求 。 代 码 或 某 
种 IR 通 常 与 语义 检查 在 同一 遍 分 析 中 进行 综合 。 如 果 使 用 IR， 像 元 组 和 后 缀 式 等 简单 线性 形式 是 最 有 可 
能 的 选择 。 

除 空间 限制 外 ， 使 用 某 种 形式 的 多 遍 分 析 还 有 其 他 原因 。 不 需要 标识 符 在 使 用 前 声明 的 语言 强制 使 
用 这 样 的 组 织 方式 ， 至 少 也 为 了 静态 语义 检查 的 目的 。 以 上 描述 的 多 遍 分 析 的 极端 形式 ， 及 其 相关 的 读 
写 中 间 文 件 的 开销 并 非 必 需 的 。 然 而 ， 语 义 处 理 必须 被 划分 开 来 ， 以 使 得 第 一 遍 分 析 通 过 处 理 所 有 声明 
创建 符号 表 ， 而 随后 的 第 二 遍 进 行 检查 并 生成 代码 或 IR。 词 法 分 析 和 语法 分 析 可 以 和 第 一 遍 语 义 处 理 相 
结合 ， 其 风格 与 单 遍 分 析 选 择 极其 相似 。 这 一 遍 分 析 和 第 二 遍 语义 处 理 之 间 的 接口 十 分 简单 ， 它 包括 由 
第 一 遍 所 创建 的 符号 表 ， 以 及 在 第 二 遍 中 即将 以 它们 被 语法 分 析 器 生成 的 顺序 来 执行 的 语义 动作 流 。 词 
法 记号 也 必须 为 那些 从 词法 记号 值 生成 语义 记录 的 动作 可 用 。 因 此 ， 如 果 第 二 遍 直接 生成 代码 ， 则 以 这 
种 方式 组 织 的 两 遍 编 译 器 可 能 比 一 遍 编 译 器 要 略 复杂 一 些 。 | | 

采取 多 遍 分 析 的 最 后 一 种 可 能 的 动因 是 要 利用 树 结 构 中 间 表 示 的 一 般 性 。 到 目前 为 止 已 描述 的 所 有 
分 析 组 织 都 仅 限于 利用 在 线性 化 的 语法 分 析 树 的 一 遍 分 析 中 可 用 的 信息 。 分 析 树 显 式 表示 的 可 用 性 允许 
利用 限制 较 少 的 分 析 技 术 。 例 如 ， 第 11 章 中 介绍 的 处 理 运算 符 重 载 的 专用 技术 就 是 一 种 为 避 开 没有 完整 
表达 式 树 可 用 的 情况 所 必须 的 方法 。 

除了 简单 地 使 更 多 信息 可 用 外 ， 树 结构 IR 的 使 用 也 促进 了 基于 属性 文法 的 更 为 形式 化 的 语义 处 理 技 
术 的 使 用 。 利用 这 种 组 织 方式 ,词法 分 析 和 语法 分 析 通 常 组 合 在 一 遍 分 析 中 ， 并 生成 语法 树 作为 其 输出 。 
语义 信息 ， 即 属性 ， 可 以 利用 与 语法 树 的 每 个 结 点 相关 联 的 规则 来 计算 。 这 些 规则 不 仅 能 指定 要 计算 的 
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语义 值 ， 而 且 还 可 规定 由 静态 语义 检查 所 强加 的 限制 。 对 树 的 一 遍 或 多 人 遍 分 析 可 以 用 来 计算 属性 的 值 并 
检查 语义 的 正确 性 。 | 

显 式 语法 树 的 可 用 性 还 有 人 允许 分 析 和 综合 完全 分 离 的 优点 。 和 人 先前 讨论 的 将 静态 语义 检查 与 某 些 IR 
或 代码 综合 相 混 合 的 技术 相 比 ， 这 里 所 描述 的 处 理 都 是 纯 分 析 的 。 这 种 分 离 是 可 能 的 ， 因 为 作为 语义 分 
析 阶 段 输入 似 的 语法 树 及 其 属性 也 扮演 着 分 析 和 综合 之 间 的 IR 接 口 。 

多 遍 综合 

正如 先前 所 建议 的 ， 多 饥 综 合 可 以 与 刚刚 讨论 的 任意 一 遍 或 多 人 遍 分 析 方案 一 同 使 用 。 惟 一 的 要 求 是 
某 些 极 必须 对 驱动 综合 阶段 可 用 。 了 可 以 是 线性 的 或 树 结构 的 。 

最 简单 的 多 遍 综合 组 织 方式 是 代码 生成 器 和 穹 孔 优化 器 的 组 合 。 回 想 一 下 ， 罕 孔 优化 是 试图 改进 由 
代码 生成 器 产生 的 代码 的 与 机 器 相关 的 最 后 一 遍 处 理 。 该 组 织 方式 说 明 这 样 一 个 事实 一 一 用 于 执行 多 遍 
综合 的 组 件 比 多 饥 分 析 组 件 有 更 少 的 相互 依赖 。 特 别 地 ， 代 码 生 成 器 可 以 完全 不 知道 窥 孔 优化 器 的 存在 。 

通过 在 代码 生成 器 处 理 IR 之 前 允许 一 遍 或 多 人 遍 的 优化 对 蕉 进行 变换 ,我们 可 以 创建 更 为 复杂 的 后 端 。 
典型 地 ， 机 器 无 关 的 优化 首先 在 IR 上 执行 。 如 果 包 含 完整 的 全 局 优化 ， 则 仅 该 阶段 就 通常 需要 多 遍 。 分 
离 的 与 机 器 相关 的 优化 阶段 可 随后 执行 ， 或 者 这 种 优化 可 以 包含 在 代码 生成 阶段 里 。 无 论 使 用 什么 样 的 
组 合 ， 优 化 都 被 称 作 是 变换 (transform) IR， 因 为 它们 的 输出 格式 通常 与 作为 其 输入 的 了 相同 ， 而 不 像 
其 他 的 编译 器 阶段 那样 通常 将 一 种 表示 翻译 (translate) 成 另外 的 一 种 表示 。 这 使 得 后 端 各 组 件 间 没 有 
典型 的 相互 依赖 : 代码 生成 器 不 需要 知道 优化 器 是 否 存在 。 

如 第 15 章 中 所 讨论 的 ， 代 码 生成 器 自身 可 能 涉及 一 遍 或 多 遍 处 理 。 简 单 的 代码 生成 算法 在 一 遍 处 理 
中 运行 得 十 分 充分 。 然 而 ， 如 果 能 多 遍 处 理 寄存 器 的 可 用 性 和 代码 选择 之 闻 的 相互 依赖 ， 则 常常 能 更 有 
效 地 分 配 害 存 器 。 进 一 步 ， 如 果 一 个 高 级 的 、 与 机 器 无 关 的 IR 作 为 代码 生成 阶段 的 输入 ， 可 能 需要 一 遍 
处 理 将 IR 翻 译 为 低级 的 、 更 加 依赖 于 机 器 的 形式 。 如 果 使 用 了 某 个 基于 机 器 描述 的 代码 生成 技术 (在 第 
15 章 中 介绍 ) ， 则 这 个 步骤 很 可 能 是 必需 的 。 | 
多 语言 和 多 目标 编译 器 

标准 化 组 织 方式 (通常 是 多 遍 处 理 ) 与 适当 的 中 间 表示 的 结合 允许 构造 编译 器 族 (a family of 
compilers)。 一 组 针对 特定 语言 、 使 用 相同 的 分 析 和 与 机 器 无 关 的 优化 组 件 而 同时 却 拥 有 针对 不 同 机 器 
的 不 同 的 代码 生成 器 的 编译 器 ， 是 编译 器 族 的 一 个 例子 。 这 类 编译 器 族 需 要 使 用 与 机 器 相对 无 关 的 IR。 
一 些 商用 的 Ada 编 译 器 就 是 以 这 种 方式 构造 的 。 它 们 使 用 的 Diana 中 间 表 示 是 Ada 事 实 上 的 标准 IR， 而 且 
是 高 度 语 言 相关 但 与 机 器 无 关 的 。 使 用 基于 机 器 描述 的 代码 生成 器 尤其 有 利于 构造 多 目标 编译 器 族 。 

另 一 类 编译 器 族 是 多 语言 族 。 这 类 编译 器 族 涉 及 使 用 基于 语言 无 关 IR (与 Dianna 相 反 ) MA a 
组 织 方式 。 针 对 不 同 语言 的 前 端 都 产生 相同 的 IR。 公 共 的 综合 组 件 用 于 生成 针对 特定 目标 机 器 的 代码 。 
与 语言 相关 的 IR 相 比 ， 这 类 编译 器 族 所 用 的 IR 通 常 是 更 低级 的 〈 即 ， 更 加 面向 机 器 的 )。 我 们 说 的 是 
“面向 机 器 ”而 不 是 “机 器 相关 的 " ， 因 为 IR 可 能 基于 某 种 虚 氢 机 器 一 一 例如 简单 的 栈 机 器 , -而 不 是 基 
于 任何 实际 的 硬件 。 在 多 语言 编译 器 族 中 使 用 更 高 级 的 IR 也 是 有 可 能 的 ; 然而 ， 这 样 的 IR 可 能 难以 定 


义 ， 因 为 它 必 须 足 够 强大 以 便 充 分 表示 所 涉及 的 所 有 源 语言 中 的 所 有 结构 。 就 像 代 码 生 成 器 的 生成 工 


具 协 助 多 目标 编译 器 族 的 开发 那样 ， 前 端 生成 工具 支持 多 语言 编译 器 族 的 开发 。 这 样 的 工具 包括 我 们 
先前 讨论 的 词法 分 析 器 和 语法 分 析 器 的 生成 器 ， 以 及 更 多 的 、 通常 基于 属性 文法 的 用 于 语义 分 析 生 成 
的 实用 工具 。 

GNU C 编 译 器 GCC (Stallman 1989) 使 用 两 种 中 间 形 式 。 第 一 种 是 高 级 的 、 面 向 树 结构 的 中 间 形 
式 。 第 二 种 称 为 RTL， 寄存 器 转移 语言 (Register Transfer Language), 它 更 多 地 面向 机 器 。GNU 编 译 器 
前 端 将 源 语 言 转换 为 树 结构 的 中 国 形 式 ， 与 语言 无 关 的 例 程 再 将 树 转换 为 RTL， 然 后 ， 在 RITL 上 执行 若 
干 遍 与 机 器 无 关 的 优化 。 最 终 ，RTL 被 转换 为 汇编 语言 ， 并 可 选 地 进行 秽 孔 优化 。 
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7.4.8 一 遍 编译 中 的 分 析 、 检 查 和 翻译 


第 2 章 的 Micro 编 译 器 被 构造 为 词法 分 析 、 语 法 分 析 和 语义 处 理 ( 语 义 检查 和 代码 生成 ) 等 阶段 交错 
进行 。 这 些 阶 段 间 的 这 种 关系 在 任何 一 遍 编译 器 中 都 是 必需 的 。 即 使 在 包含 单独 的 优化 和 代码 生成 阶段 
的 编译 器 中 ， 也 仍然 希望 能 一 遍 生 成 被 后 面 的 阶段 使 用 的 中 间 表 示 。 这 种 方法 有 两 个 主要 优点 : (1) A 
译 器 前 端 更 加 简单 ， 因 为 不 需要 构造 或 遍历 树 的 代码 ; (2) 如 果 不 显 式 地 创建 整个 语法 树 ， 则 处 理 一 
个 程序 所 需 的 存储 空间 会 更 少 。 自 然 ， 它 也 有 一 些 相应 的 缺点 。 没 有 完整 的 树 表示 限制 了 对 每 个 语义 例 
程 直接 可 用 的 信息 总 量 。 因 此 ， 需 要 某 些 特殊 技术 来 克服 这 个 限制 。 

对 于 语义 处 理 章节 ( 见 第 10 章 ~ 第 13 章 ) 中 的 例子 ， 我 们 假定 语法 分 析 和 语义 处 理 交 错 于 一 遍 分 析 
中 。 该 假定 源 于 保持 我 们 的 方法 尽 可 能 简单 的 愿望 。 我 们 所 使 用 的 技术 可 以 很 容易 地 被 推广 以 便 和 程序 
的 显 式 语法 树 表示 一 同 工 作 。 

一 遍 翻 译 器 中 的 词法 分 析 器 和 语法 分 析 器 之 间 的 关系 非常 简单 。 语 法 分 析 器 需要 来 自 词法 分 析 器 的 
记号 流 。 词 法 记号 可 以 在 需要 时 由 词法 分 析 器 利用 其 内 部 数据 结构 和 源 程序 产生 。 因 此 语法 分 析 器 简单 
地 将 词法 分 析 器 作为 一 个 子 程序 来 调用 并 接收 词法 记号 作为 调用 的 结果 。 就 像 Micro 编 译 器 所 展示 的 ， 
语法 分 析 器 /语义 关系 要 复杂 得 多 。 出 现在 驱动 语法 分 析 器 的 产生 式 中 的 动作 符号 导致 语法 分 析 器 在 分 
析 源 程序 时 调用 相应 的 语义 例 程 。 考 虑 下 列 描述 if 语句 的 产生 式 : 


«statement» — if «expression» #start_if 
then «statement list» end if 3finish if 


该 产生 式 指 出 对 语义 例 程 start_if() 和 finish_if() 的 两 次 调用 将 在 语法 分 析 器 处 理 if 语 句 的 适当 时 
刻 发 生 。 在 编译 器 所 处 理 的 语言 中 ， 对 每 个 结构 调用 哪些 语义 例 程 以 及 何 时 调用 它们 都 要 显 式 地 指定 。 

由 语义 例 程 的 调用 所 产生 的 语义 记录 将 表示 与 语法 树 相 应 结 点 关联 的 属性 。 每 个 不 同 的 文法 符号 ， 
包括 终结 符 和 非 终结 符 ， 都 有 不 同 的 含有 那个 符号 适当 信息 的 记录 。 然 而 ， 同 类 符号 的 每 次 出 现 一 一 例 
如 每 个 ID 或 <expression> 一 一 在 其 语义 记录 中 存储 着 完全 相同 的 数据 集 。 如 果 没 有 可 存储 的 语义 数据 ， 
符号 也 有 可 能 拥有 空 的 语义 记录 。 例 如 ， 像 “; ”这 样 的 符号 就 不 需要 语义 记录 。 

尽管 语义 例 程 从 不 显 式 调 用 其 他 语义 例 程 ， 但 它们 通过 接收 语义 记录 作为 参数 并 生成 语义 记录 作为 
结果 来 隐 式 地 相互 通信 。 那 些 确实 拥有 关联 语义 信息 的 终结 符 的 语义 记录 可 由 在 第 2 章 Micro 编 译 器 中 使 
用 的 process_op() 和 process_id( ) 那样 的 例 程 来 构造 。 它 们 使 用 由 词法 分 析 器 所 提供 的 有 关 词 法 记 
号 的 信息 来 构造 适当 的 记录 。 非 终结 符 所 对 应 的 语义 记录 通常 由 那个 在 该 非 终 结 符 的 产生 式 的 整个 右 部 
被 匹配 之 后 调用 的 语义 例 程 产 生 。 读 语义 记录 由 处 理 产生 式 右边 符 号 相应 记录 的 语义 例 程 创建 。 产 生 式 
右边 符号 相应 的 语义 记录 被 作为 参数 传递 给 该 语义 例 程 。 处 理 这 些 记录 可 以 包括 生成 代码 或 在 符号 表 中 
登记 信息 ， 以 及 构造 新 的 语义 记录 。 根 据 使 用 的 是 递归 下 降 还 是 表 驱 动 的 语法 分 析 ， 语 义 例 程 将 由 语法 
分 析 例 程 或 语法 分 析 器 驱动 程序 来 调用 。 在 任何 一 种 情况 下 ， 都 必须 提供 某 种 措施 在 各 语义 例 程 的 调用 
之 间 存 储 语 义 记 录 ， 因 为 这 些 例 程 不 直接 调用 其 他 例 程 。 在 第 2 章 的 Micro 编 译 器 中 ， 我 们 看 到 语义 记录 
被 存储 在 语法 分 析 例 程 的 局 部 变量 中 ， 直 到 它们 用 作 语 义 例 程 调用 的 参数 。 作为 选择 ， 表 驱动 的 语法 分 
析 器 必须 依赖 于 一 个 显 式 数据 结构 一 一 栈 ， 我 们 称 之 为 语义 栈 (semantic stack) 一 一 来 存储 由 语义 例 程 
所 产生 的 语义 记录 ， 直 到 它们 在 后 续 的 调用 中 被 作为 参数 使 用 。 图 7-4 举 例 说 明了 在 语法 分 析 器 分 析 A : 
=B + 1 时 所 调用 的 语义 例 程 对 语义 栈 的 影 啊 。 

在 使 用 自 顶 向 下 或 自 底 向 上 的 语法 分 析 器 交错 进行 语义 处 理 与 语法 分 析 时 ， 可 能 的 语义 属性 计算 被 
限制 为 那些 在 分 析 树 的 一 次 后 序 遍 历 中 可 能 进行 的 属性 计算 。 由 两 种 语法 分 析 器 中 任意 一 种 所 生成 的 语 
法 分 析 动 作 序列 都 提供 了 足够 的 信息 来 创建 分 析 树 ， 而 且 它 可 以 被 认为 是 树 的 线性 化 。 类 伺 地 ， 在 语法 
分 析 中 生成 的 语义 动作 调用 序列 对 应 在 树 的 后 序 遍 历 中 结 点 访问 和 属性 计算 的 蜂 序 。 这 些 观 察 准确 指出 
了 交错 进行 语法 分 析 和 语义 处 理 的 缺点 。 在 进行 语法 分 析 时 构造 显 式 的 语法 树 允 许 使 用 希望 支持 语义 处 
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理 的 任意 信息 流 。 把 这 两 个 阶段 交错 在 一 起 要 求 我 们 的 语义 例 程 被 设计 为 仅 利用 在 一 次 后 序 遍 历 中 可 用 
的 信息 即 可 完成 其 工作 。 这 样 的 设计 是 否 可 能 取决 于 被 编译 的 语言 的 定义 。 


process id() process id() 
生成 一 个 用 于 A 的 expr_rec 生成 一 个 用 于 B 的 expr_rec 
process op() process lit() 
生成 一 个 用 于 + 的 op_rec 生成 一 个 用 于 1 的 expr_rec 





A 
gen infix() 生 成 代码 和 gen assign() 生 成 
一 个 用 于 B+1 的 expr_rec 将 B+1 赋 给 A 的 代码 并 将 栈 清 空 


Bj o | 
LA | | 


图 7-4 语义 栈 示例 (处 理 A :=B+1) 


7.2 语义 处 理 技术 
7.2.1 LL 分 析 器 和 动作 符号 


在 前 面 一 节 中 介绍 的 tf 语句 产生 式 说 明了 在 自 项 向 下 的 语法 分 析 器 中 如 何 使 用 动作 符号 来 指定 何 时 
调用 特定 的 语义 例 程 。 动 作 符号 不 必 包 含 于 每 个 产生 式 中 ( 某 些 非 终 结 符 没有 与 之 相关 的 语义 信息 )， 
因此 ， 相 应 的 产生 式 对 语义 属性 的 计算 没有 影响 。<statement iist> 的 产生 式 是 这 种 情况 的 一 个 很 好 的 
例子 。 然 而 ， 某 些 产生 式 ， 像 if 语句 产生 式 ， 可 能 包含 多 个 动作 符号 。 多 个 动作 符号 通常 出 现在 控制 结 
构 的 产生 式 中 ， 因 为 像 case、if 和 ioop 语 句 这 样 的 结构 要 求 在 源 代码 的 多 个 地 方 生成 代码 。 

通过 动作 符号 来 指定 语义 例 程 调用 能 够 和 LL 分 析 器 很 好 地 配合 工作 ， 如 图 5-11 中 的 语法 分 析 例 程 所 
说 明 的 那样 。 动 作 符号 和 其 他 文法 符号 一 样 被 同等 对 待 ， 并 在 预测 一 个 产生 式 时 被 压 入 分 析 栈 。 仅 需 对 
LI 分 析 算 法 做 一 点 小 的 扩展 就 能 处 理 这 种 新 的 语法 符号 类 型 。 当 动作 符号 到 达 栈 顶 时 ， 语 法 分 析 器 简单 
地 调用 相应 语义 例 程 而 不 是 试图 执行 某 种 语法 分 析 动作 。 

动作 符号 与 LL 分 析 的 良好 结合 归 因 于 自 顶 向 下 分 析 的 预测 特性 。 一 个 产生 式 在 与 其 右 部 对 应 的 符 
号 被 分 析 器 处 理 之 前 将 被 选择 用 来 扩展 分 析 树 ， 因 为 LL(k) 分 析 器 为 选择 产生 式 将 超前 搜索 、 但 并 不 消 
耗 产生 式 右 部 的 前 k 个 符号 。 | 


722 LR 分 析 器 和 动作 符号 
5LL() 分 析 方 法 不 同 ，LR(K) 分 析 器 直到 处 理 了 产生 式 整 个 右 部 并 超前 搜索 k 个 符号 之 后 才 决 定 应 
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用 哪个 产生 式 。 由 于 这 种 不 确定 性 ， 在 产生 式 右 部 符号 被 语法 分 析 器 接受 时 ， 动 作 符号 不 能 用 于 触发 语 
义 例 程 调 用 。 两 个 除 动作 符号 不 同 外 ， 右 部 符号 均 相间 的 产生 式 可 以 被 同时 考虑 。 只 有 在 语法 分 析 器 使 
用 超前 搜索 符号 选择 适当 的 产生 式 后 才 可 能 调用 正确 的 语义 例 程 。 

再 次 考虑 先前 介绍 的 话语 句 产 生 式 : 


<statement> 一 if <expression> #start_if 
then «statement list» end if #finish_if 


我 们 认识 到 在 处 理 了 产生 式 的 整个 右 部 之 后 才 调 用 start_if() 太 迟 了 。start_if() 必 须 在 为 
<expression> 和 <statement list> 产 生 的 代码 之 间 生 成 条 件 跳 转 指令 。 推 广 这 种 认识 ， 显 然 动作 符号 只 
能 被 放 在 用 于 LR 分 析 器 的 产生 式 的 最 右 凯 。 

if 语 句 产生 式 必 须 重 写 为 两 个 独立 的 产生 式 ， 以 在 语法 分 析 的 正确 时 刻 产 生 语义 例 程 调用 。 因 此 ， 

必须 引入 新 的 非 终 结 符 ， 它 对 应 着 原 产生 式 右 部 直到 并 包含 第 一 个 动作 符号 的 部 分 。 我 们 使 用 下 列 产 生 
式 为 LR 分 析 器 指定 if 语 句 : 


<statement>— <if head> then <statement list> end if #finish_if 
«if head>— if <expression> #start_if 


非 终 结 符 <if head>A Ht BBR AE 3148-7 (semantic hook) ， 因 为 它 在 文法 中 的 存在 对 于 语法 分 析 器 所 接 
受 的 语言 没有 影响 。 它 仅 用 于 使 语法 分 析 器 能 够 在 正确 的 时 机 ， 即 在 处 理 then 后 大 跟随 的 <slalemen 
list> 之 前 ， 调 用 start if(). 

即使 在 产生 式 右 部 仅 有 一 个 动作 符号 ， 如 果 它 不 在 最 右 端 ， 则 类 似 的 转换 也 是 必须 的 。 例 如 ， 考 虑 
Micro 中 <program> 的 产生 式 ， 它 需要 应 用 同样 的 转换 : 

«program» #start begin «statement list» end 
必须 变 为 


<program> 一 <program head> begin <statement list> end 
«program head» — #start 


以 使 得 start() 在 处 理 <statement list> 之 前 调用 。 

某 些 LR 分 析 器 生成 器 ， 其 中 最 著名 的 是 Yacc， 允许 在 产生 式 右 部 的 任意 位 置 插入 语 义 动作 ， 刚刚 
描述 的 转换 由 语法 分 析 器 生成 器 在 必要 时 自动 执行 

这 种 文法 转换 的 一 个 重要 的 性 质 是 它 对 语义 例 程 没有 任何 影响 它们 与 所 使 用 的 语法 分 析 技 术 完全 
无 关 。 这 种 转换 及 其 逆转 换 使 得 从 LL 或 LR 分 析 器 有 可 能 生成 相同 的 语义 例 程 调 用 序列 。 因此 ， 针 对 两 
种 语法 分 析 器 ， 那 些 将 在 第 10 章 到 第 13 章 中 研究 的 语义 处 理 技术 均 可 以 很 好 地 工作 。 用 于 表示 它们 的 文 
法 片段 可 以 被 转换 以 适应 任意 一 种 分 析 技 术 。 

acc MB BR > OL RIO A AR LA EDU 
作 符 号 的 位 置 上 插入 任意 的 程序 代码 。 该 特性 对 于 小 的 翻译 工作 尤其 有 用 ， 因为 它 允 许 语 法 和 语义 都 在 
一 个 地 方 被 指定 。 对 于 较 大 的 翻译 器 ， 像 编译 器 ， 这 种 组 合 变 得 十 分 难以 阅读 ， 除 非 所 插入 的 语义 动作 
被 限定 为 子 程序 调用 。 然 而 ， 两 种 生成 器 的 能 力 几乎 相同 ， 其 中 表 生 成 器 更 为 灵活 ， 因为 它们 不 强迫 使 
用 特定 的 语言 书写 语义 动作 。 


7.2.3 语义 记录 表示 


如 第 2 音 的 Micro 编 译 器 所 说 明 的 那样 ， 语 义 记录 是 传 给 语义 例 程 的 参数 。 由 语义 例 程 所 访问 的 记录 
包 念 与 符号 相关 联 的 语义 信息 ， 这 些 符 号 已 经 在 调用 语义 例 程 之 前 由 语法 分 析 器 处 理 。 每 个 语义 例 程 接 


收 一 定数 量 的 记录 作为 参数 并 可 选 地 产生 一 个 或 多 个 记录 表示 其 结 采 。 


- Micro 编 译 器 是 语义 例 程 调用 出 现在 语法 分 析 例 程 中 的 一 个 例子 。 在 7.2.1 节 和 7.2.2 节 ， 我 们 讨论 了 
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语义 例 程 调用 如 何 由 表 驱 动 的 语法 分 析 器 自动 触发 。 在 第 2 章 的 示例 编译 器 中 ， 使 用 了 两 种 不 同类 型 的 
语义 记录 : op_rec 和 expr_rec。 无 论 何 时 当 某 个 记录 需要 被 暂时 存储 用 于 随后 的 语义 例 程 调用 时 ， 在 
语法 分 析 例 程 中 要 声明 相应 的 适当 类 型 的 局 部 变量 。 当 使 用 表 驱 动 的 语法 分 析 器 时 ， 需 要 一 个 语义 栈 来 
暂 存 语义 记录 。 语 义 栈 的 实现 通常 使 用 单独 的 一 种 语义 记录 类 型 。 然 而 ， 各 种 文法 符号 的 语义 栈 条 目 必 
须 包含 多 种 信息 。 | 

当 使 用 支持 强 类 型 检查 的 实现 语言 时 ， 将 不 同 的 信息 放 入 语义 栈 条 目 中 最 好 能 通过 使 用 变 体 记录 或 
类 型 联合 来 处 理 。 这 些 特性 可 将 不 同类 型 组 合 于 单独 的 类 型 中 ， 这 正 是 构造 包含 各 种 文法 符号 不 同 信息 
的 语义 栈 所 需要 的 。 使 用 这 些 特 性 的 一 个 特别 的 优点 是 各 种 语义 记录 版 本 在 声明 中 显 式 地 明确 给 出 ， 因 
此 增强 了 可 读 性 ， 并 允许 编译 器 对 使 用 语义 栈 记 录 的 代码 执行 类 型 检查 。 

图 7-5 中 的 类 型 声明 举例 说 明了 Micro 的 语义 记录 定义 所 使 用 的 方法 。 首 先 ， 重 复 来 自 第 2 章 定义 不 同 
类 型 语义 记录 的 类 型 声明 。 随 后 这 些 声明 与 枚 举 变量 组 成 称 为 semantic_record 的 结构 ， 它 定义 语义 栈 
中 所 有 可 能 的 可 选 条 目 。( 与 第 2 章 中 一 样 ，expr_rec 是 一 个 匿名 联合 ， 该 结构 并 非 标准 C 语 言 的 一 部 分 ， 
但 我 们 将 在 这 里 及 后 续 章 中 大 量 使 用 它 ) | 











#define MAXIDLEN 33 
typedef char string [MAXIDLEN] ; 


typedef struct operator { /* for operators */ 
enum op { PLUS, MINUS } operator; 
) op rec: 






/* expression types */ 
enum expr ( IDEXPR, LITERALEXPR, TEMPEXPR }; 











/* for «primary» and «expression» */ 
typedef struct expression { 
enum expr kind; 
union { 
string name;  /* for IDEXPR and TEMPEXPR */ 
int val; /* for LITERALEXPR */ 







}; 
} expr rec; 


enum semantic record kind ( OPREC, EXPRREC }; 







typedef struct sem rec { 7 

enum semantic : record | kind record kind; 
union { 

op rec op record; /* OPREC */ 
expr rec expr record; /* EXPRREC */ 





) semantic record; 





Figure 7.5 semantic record Declaration for Micro 





图 7-5 Micro 的 semantic_record 声 明 


错误 处 理 

图 7-5 中 的 语义 记录 声明 假定 任何 被 设计 来 返回 语义 记录 的 语义 例 程 将 把 某 些 有 意义 的 信息 放 在 屠 
些 记录 当中 。 当 语义 错误 被 检测 出 来 时 ， 该 假定 不 成 立 。 在 要 求 声明 的 语言 的 编译 器 中 ， 例 如 ， 对 于 一 
个 在 符号 表 中 查找 标识 符 的 语义 例 程 ， 如 果 标 识 符 没有 找到 ， 或 者 该 标识 符 的 定义 不 符合 其 用 法 ， 则 该 
例 程 产生 一 条 出 错 信 息 。 语义 例 程 通常 会 产生 含有 某 些 从 符号 表 条 目 中 所 提取 信息 的 语义 记录 。 然 而 ， 
当 发 现 错误 时 ， 没 有 这 样 可 用 的 信息 。 

试图 校正 程序 错误 的 编译 器 可 能 产生 用 于 后 续 例 程 的 语义 记录 信息 ， 但 这 种 方式 会 有 导致 报告 一 长 


串 无 意义 的 、 容 易 使 人 混淆 的 出 错 信 息 的 风险 。 然 而 ， 存在 一 种 可 用 的 简单 技术 能 保证 对 于 语义 例 程 检 
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测 到 的 每 个 错误 ， 只 会 出 现 一 条 出 错 信 息 。 该 技术 要 求 定 义 一 种 额外 的 语义 记录 类 型 ， 我 们 称 之 为 
ERROR 。 它 不 需要 有 相应 的 变 体 ， 因 为 ERROR 记录 仅 警 告 其 他 语义 例 程 发 生 了 错误 并 且 不 存在 有 用 的 信 
息 。 因 此 semantic_record 的 定义 将 被 改变 ， 如 图 7-6 所 示 。 


enum semantic record kind { OPREC, EXPRREC, ERROR }; 


typedef struct sem_rec { 
enum semantic record kind record kind; 
union ( ~ 7 7 
op_rec op record; /* OPREC */ 
expr_rec expr_record; /* EXPRREC */ 
/* empty variant */ /* ERROR */ 
}; 
} semantic record; 





图 7-6 #6 出 错 选 树 和 的 Micro 的 semantic record 声明 


任何 检测 到 错误 的 语义 例 程 必须 产生 ERROR 记 录 而 不 是 它 通常 所 产生 的 那些 语义 记录 。 对 于 作为 参 
数 收 到 的 记录 ， 每 个 例 程 必须 在 试图 使 用 它们 之 前 对 其 进行 检查 ， 以 确定 其 中 是 否 有 ERRORi 记 录 。 如 琳 
它 的 任何 一 个 参数 是 ERROR 记 隶 ， 它 就 可 以 忽略 所 有 正常 处 理 并 简单 地 返回 一 个 ERROR 记 录 。 (如果 仅 使 
用 除 ERROR 记 录 之 外 的 其 他 参数 ， 某 些 静 态 语义 检查 也 许 仍然 可 以 进行 ， 但 寻求 这 种 可 能 性 将 使 得 语义 
例 程 变 得 极为 复杂 化 。) 通过 该 机 制 ， 在 检测 到 一 个 错误 之 后 ， 所 有 语义 例 程 消耗 并 产生 同样 数量 的 语 
义 记 录 ， 并 且 一 个 出 错 指示 被 传播 到 某 个 语义 例 程 ， 通 常 是 在 <statement> 或 <declaration> 级 的 例 程 ， 
它们 不 产生 语义 记录 。 程 序 其 余部 分 的 编译 可 以 随后 正常 继续 ， 并 且 通 常 仅 有 单独 一 条 适当 的 出 错 信 息 
被 生成 。( 通 常 仅 做 进一步 的 分 析 ， 因 为 为 一 个 含有 严重 错误 的 程序 生成 代码 很 可 能 是 不 值得 的 。) 


7.2.4 实现 动作 控制 的 语义 栈 


在 为 编译 器 设计 基于 栈 的 语义 处 理 阶段 时 ， 一 个 重要 的 问题 是 如 何 控制 人 栈 、 出 栈 以 及 将 栈 中 的 条 
目 作为 参数 传递 给 语义 例 程 。 一 种 方法 是 使 栈 成 为 语义 动作 例 程 可 直接 访问 的 。 利 用 这 种 方法 ， 动 作 例 程 
从 栈 顶 取 它们 的 参数 而 不 是 在 被 调用 时 显 式 接收 参数 。 类 似 地 ， 在 去 除了 参数 以 后 ， 动 作 例 程 所 产生 的 任 
何 语义 记录 将 被 直接 压 入 语义 栈 中 。 以 此 方式 管理 的 栈 被 称 为 动作 控制 的 (action-controlled ) 语义 栈 。 

语义 栈 可 以 实现 为 像 7.2.3 节 中 所 定义 的 semantic_record 类 型 记录 的 数组 ， 或 者 动态 分 配 的 记录 
组 成 的 链表 。 数 组 方式 要 求 为 数组 中 的 每 个 元 素 分 配 语义 记录 的 任何 变 体 所 需 的 最 大 存储 空间 。 它 也 必 
须 对 栈 可 能 增长 的 最 大 深度 给 出 固定 限制 (除非 实现 语言 支持 动态 改变 数组 的 大 小 )。 然 而 ， 入 栈 和 出 
栈 非常 迅速 ， 所 需 的 仅 是 改变 定义 栈 顶 的 下 标 变量 。 相 反 ， 链 表 方 式 允 许 栈 几 乎 无 限制 地 增长 ， 而 对 于 
每 条 单独 的 条 目 仅 需 分 配 恰 好 满足 其 需求 的 足够 空间 。 另 一 方面 ， 分 配 和 释放 需求 使 得 和 人 栈 和 出 栈 操作 
比 利 用 数组 实现 时 要 慢 许 多 。( 如 果 所 有 记录 都 像 数组 实现 中 那样 以 最 大 尺寸 分 配 ， 并 且 记 录 在 出 栈 后 
被 保存 并 重用 ， 而 不 是 归还 给 动态 存储 管理 器 ， 则 这 些 操作 的 效率 可 以 被 改善 .) 如 果 不 使 用 数组 的 话 ， 
访问 除 栈 顶 元 素 外 的 其 他 元 素 的 代价 可 能 更 为 昂贵 。 | 
语义 栈 实现 示例 

尽管 语义 例 程 总 是 从 语义 栈 顶 取得 其 参数 并 将 结果 放 在 栈 顶 ， 在 特定 的 例 程 中 语义 楼 不 必 被 作为 抽 
象 栈 对 待 。 语 义 例 程 可 以 直接 访问 栈 中 作为 其 参数 的 所 有 条 目 ， 因 为 它 知道 它们 相对 栈 顶 的 位 置 。 这 种 
方法 避免 了 为 给 变量 赋值 而 将 它们 弹出 栈 的 复制 代价 。 这 些 条 目 仅 在 例 程 的 末尾 被 弹出 并 丢弃 。 类 似 地 ， 
在 那些 将 被 弹出 的 条 目下 面 的 条 目 也 可 以 被 访问 ， 甚 至 被 改变 ，( 在 它 上 面 的 条 目 被 弹出 后 ) 它 将 留 在 
栈 中 供 以 后 使 用 。 作 为 这 些 考 虑 的 结果 ， 动 作 控制 的 语义 栈 不 需要 被 定义 为 抽象 数据 结构 。 相 反 ， 它 的 
实现 知识 可 被 普遍 用 于 语义 例 程 中 。 
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图 7-7 包 含 Micro 语 义 栈 实现 的 定义 ， 它 允许 像 上 面 所 描述 的 那样 使 用 语义 栈 。 它 使 用 图 7-6 中 给 出 
的 semantic_record 类 型 声明 加 上 来 自 图 7-5 的 辅助 声明 。 跟 在 这 些 类 型 声明 后 面 的 是 实际 用 于 实现 请 
义 栈 的 变量 一 一 一 个 数组 和 一 个 下 标 变量 的 声明 。 最 后 是 可 用 于 操纵 栈 的 两 个 宏 ，push( ) 和 pop()。 它 
们 并 非 真正 必需 的 ， 因 为 栈 的 数据 结构 完全 可 网， 但 它们 便于 改变 该 数据 结构 。 宏 的 内 容 没 有 给 出 ， 因 
为 push( ) 和 pop( ) 的 实现 很 简单 。 













#define MAXIDLEN 33 
typedef char string [MAXIDLEN] ; 


typedef struct operator { /* for operators */ 
enum op { PLUS, MINUS } operator; 
} op_rec; 











/* expression types */ 
enum expr { IDEXPR, LITERALEXPR, TEMPEXPR }: 





* for «primary» and «expression» */ 
typedef struct expression ( 
enum expr kind; 


union ( 
string name; /* for IDEXPR and TEMPEXPR */ 
int val; /* for LITERALEXPR */ 


















) 


) expr rec: 
enum semantic record kind ( OPREC, EXPRREC, ERROR }; 


typedef struct sem rec { 
enum semantic record kind record kind; 
union { 
op rec op record; /* OPREC */ 
expr rec expr record; /* EXPRREC */ 


/* empty variant */ /* ERROR */ 
} semantic record; 
$define STACKLIMIT 100 


int top = -1; 
semantic record sem stack[STACKLIMIT]; 











* Following are two macros that are not strictly 
* necessary since the semantic stack can be freely 

* manipulated by any routine that has access to this 
* header. However, they do encapsulate some stack 

* manipulation details. 

*/ 






/* 
* pushes entry onto the stack; if there is no room 
* generates a "stack full" fatal error. 

* 


#define push (entry) { 777 } 














/* 
* Removes number entries from the stack by 

x decrementing top. If stack has less than number 
* entries, generates a "stack empty" fatal error. 
*/ 

#define pop (number) { cc } 





图 7-7 动作 控制 的 语义 栈 


抽象 语义 栈 | 
zh Mess RATE RA E los: (1) 它 们 的 实现 对 于 动作 例 程 完 全 可 见 ， 因 此 对 实现 的 改变 很 困难 ， 








ELENA 


以 及 (2) 它 们 要 求 动作 例 程 中 包含 进行 语义 栈 管理 的 代码 。 其 中 后 一 点 使 得 动作 例 程 比 我 们 在 第 2 章 中 所 
见 到 的 更 为 复杂 (那些 例 程 通过 其 参数 ， 与 编译 器 的 其 余部 分 有 非常 简单 的 接口 ) 。 这 个 问题 可 以 用 两 
234| “种 方式 来 解决 。 如 果 有 适当 的 语法 分 析 器 生成 器 可 用 ， 可 以 使 用 分 析 器 控制 的 语义 栈 ( parser-controlled 
semantic stack )。 该 技术 在 7.2.5 节 描述 。 作 为 选择 ， 还 可 以 使 用 参数 驱动 的 动作 例 程 ， 如 果 它 们 不 是 由 
语法 分 析 器 直接 调用 而 是 由 处 理 栈 操作 的 中 间 例 程 调用 。 这 些 中 间 例 程 由 语法 分 析 器 调用 。 
不 论 用 哪 种 方法 ， 使 用 像 图 7-8a 所 示 的 抽象 语义 栈 接口 都 是 合适 的 。( 图 7-8b 含 有 相应 的 实现 。) 该 
例 程 与 图 7-7 的 例 程 不 同 ， 其 中 语义 栈 的 实现 被 隐藏 在 实际 的 过 程 中 ， 而 这 些 过 程 在 其 他 地 方 定义 。 因 
此 我 们 获得 语义 例 程 和 语义 栈 之 间 更 简洁 的 接口 ， 但 放弃 了 访问 尚 在 栈 中 的 条 目的 能 力 〈 反 正 这 种 能 力 
已 经 不 再 需要 )。 为 访问 一 个 条 目 ， 必 须 调用 pop( ) ， 它 将 导致 栈 中 条 目 被 复制 到 由 调用 例 程 所 指定 的 
某 个 变量 中 。 这 种 复制 使 得 抽象 栈 比 起 先前 给 出 的 语义 栈 更 低 效 。 然 而 ， 抽 象 方法 使 得 从 数组 实现 切换 
到 链表 实现 很 简单 ， 而 使 用 第 一 个 版 本 的 语义 栈 将 会 十 分 复杂 。 









/* Header file to be included by the action routines. 
*/ | 


/* semantic record and related type 
* declarations go here. 
*/ 























/* 
* Pushes entry onto the stack; if there is 

* no room, generates a "stack full" fatal error 
*/ 

extern void push(const semantic record entry): 

/* EE 

* Removes number entries from the stack by 

* decrementing top. If stack has less than number 
* entries, generates a "stack empty" fatal error. 
*/ 


extern semantic record pop (void); - 


a) 接口 





/* In a separate source file. */ 


#define STACKLIMIT 100 
static int top = -1; 
static semantic record sem stack [STACKLIMIT] ; 


void push(const semantic record entry) 






if (top »x STACKLIMIT-1) 
fatal error("semantic stack overflow"); 
else 
sem stack[++top] = entry; 
) 


semantic record poP (void) 
{ 
if (top < 0) 
fatal_error ("semantic stack underflow"); 
else 
return sem stack[top--]: 


b) 实现 


图 7-8 抽象 语义 栈 的 接口 和 实现 








7.2.5 “分析 器 控制 的 语义 本 


动作 控制 的 语义 栈 必 须 忍 受 以 下 缺点 : 即 除了 它们 的 其 他 工作 之 外 ， 每 个 语义 例 程 都 必须 压 人 和 弹 
出 适当 的 信息 。 语 义 栈 增长 和 缩小 依赖 于 动作 例 程 如 何 编写 ， 这 意味 着 它 的 改变 与 分 析 栈 的 改变 仅 有 松 
散 的 关联 。 语 义 例 程 的 设计 者 必须 假定 或 验证 在 每 个 语义 例 程 开始 时 适当 的 记录 已 处 于 语义 栈 顶 ， 以 及 
每 个 例 程 都 使 语义 栈 保持 正确 的 格局 。 可 以 通过 让 语法 分 析 器 控制 语义 栈 将 这 种 额外 的 复杂 性 从 语义 例 
程 中 删除 。 

LR 分 析 器 控制 的 语义 栈 | 

在 匹配 产生 式 右 部 过 程 中 的 任意 一 点 ，LR 分 析 器 的 分 析 栈 包含 了 与 到 目前 为 止 匹配 的 每 个 符号 一 一 
终结 符 和 非 终结 符 一 -对 应 的 条 目 。 为 让 语法 分 析 器 控制 语义 栈 ， 仅 需要 在 分 析 栈 条 目 中 为 语义 记录 增 
加 空间 ， 或 者 为 语义 记录 提供 一 个 平行 的 栈 。 使 用 该 技术 ,语义 栈 中 为 每 个 匹配 的 文法 符号 均 包含 了 一 
个 相应 的 条 目 ， 当 然 也 包括 那些 带 有 空 语 义 记录 的 符号 。 当 产生 式 右 部 相应 的 文法 符号 被 弹出 分 析 栈 时 ， 
它们 也 将 被 弹出 语义 栈 。 必 须 为 每 个 产生 式 都 指定 一 个 语义 动作 ;该 动作 必须 定义 当 产生 式 左 部 的 非 终 
结 符 入 栈 时 要 存储 的 相应 语义 记录 值 。 

第 6 章 中 所 描述 的 Yacc 分 析 器 生成 器 是 一 个 提供 这 种 分 析 器 控制 的 语义 记录 栈 机 制 的 著名 例子 。 在 
程序 员 所 编写 的 作为 Yacc 规 则 一 部 分 的 动作 中 ， 相 应 于 产生 式 右 部 符号 的 语义 记录 可 以 通过 使 用 伪 变 量 
名 $1、$2 等 来 引用 。 产 生 式 左 部 非 终结 符 的 语义 值 由 分 配给 它 的 伪 变 量 $$ 来 定义 。 如 果 对 一 个 产生 式 
没有 指定 动作 ，Yacc 自 动 生成 从 $1 到 $$ 的 赋值 。 

LL 分 析 器 控制 的 语义 栈 | | 

LL 分 析 栈 包含 预测 的 符号 而 不 是 已 经 分 析 的 符号 ， 因 此 不 可 能 使 用 像 LR 分 析 器 所 使 用 的 那 种 平行 
的 栈 机 制 来 管理 语义 栈 。 语 法 分 析 器 在 预测 非 终结 符 或 匹配 终结 符 时 在 分 析 栈 上 执行 人 栈 和 出 栈 操作 ， 
但 语义 栈 必 须 以 不 同 的 方式 工作 ， 因 为 与 符号 有 关 的 语义 信息 通常 在 符号 匹配 之 后 才 被 维护 。 


无 论 何 时 一 个 产生 式 被 预测 时 ， 不 仅 相关 的 符号 (终结 符 、 非 终结 符 和 动作 符号 ) RAS TR, - 


而 且 与 产生 式 右 部 的 每 个 终结 符 和 非 终 结 符 有 关 的 新 的 条 目 也 被 压 人 语义 栈 。 无 论 何 时 一 个 产生 式 完 成 
时 ， 其 右 部 的 语义 记录 被 弹出 栈 。 左 部 的 语义 记录 留 在 栈 中 ; 刚刚 完成 的 产生 式 左 部 是 预测 它 的 那 条 产 
， 生 式 右 部 的 一 个 成 员 。 事 实 上 ， 聪 明 的 语义 栈 管理 允许 当前 产生 式 的 左 部 和 前 一 个 产生 式 右 部 的 成 员 
(同一 个 非 终 结 符 ) 使 用 完全 相同 的 条 目 。 因 此 ， 在 产生 式 终止 时 不 必 复 制 任何 语义 记录 。- | 

语法 分 析 器 总 是 维护 若干 指向 语义 栈 的 索引 。 其 中 之 一 ，left_index， 指 向 存放 当前 产生 式 左 部 
文法 符号 语义 记录 的 条 目 。 类 似 地 ，rigtt_index 指 向 右 部 第 一 个 元 素 的 条 目 。 产 生 式 右 部 其 他 元 素 的 
语义 记录 可 以 在 语义 栈 的 位 置 right indext1; right index+2 等 处 找到 。 current index 指 向 右 部 
当前 正 被 展开 的 元 素 。 最 后 ，top_index 指 向 语义 栈 顶 的 第 一 个 自由 条 目 。 

为 使 语法 分 析 器 分 辨 何 时 一 个 产生 式 已 经 结束 ， 我 们 使 用 一 种 新 的 分 析 栈 条目 。 到 目前 为 止 ， 分 析 
栈 条 目 是 终结 符 、 非 终结 符 或 动作 符号 。 第 5 章 中 的 11driver( ) 例 程 就 做 了 这 种 假设 。 我 们 的 新 条 目 被 
称 为 产生 式 结束 符 (end of production), EOP, left index, right index. current _index 以 及 
top index 的 旧 值 存储 在 FoP 条 目 中 。 实 际 的 实现 可 以 为 这 些 值 使 用 单独 的 栈 ， 但 假定 它们 存储 在 EOP 
条 目 中 是 很 方便 的 。 图 7-9 给 出 11driver( ) 的 一 个 版 本 ， 它 合并 了 这 些 管理 语义 栈 的 扩展 。 

当 语 法 分 析 器 控制 着 庄 义 栈 时 , 语义 例 程 可 以 通过 它们 用 于 输入 和 输出 的 语义 记录 来 显 式 地 参数 化 。 
除了 参数 不 是 一 般 的 semantic_record 类 型 以 外 ， 在 第 2 章 中 的 语义 例 程 采用 的 就 是 这 种 形式 。 我 们 需 
要 一 种 记号 告诉 语法 分 析 器 哪些 语义 栈 条 目 应 当 作为 参数 传递 给 语义 例 程 。 为 提供 这 个 信息 ， 我 们 增强 
了 动作 符号 的 表示 使 用 与 Yacc 中 相同 的 语法 为 动作 符号 添加 一 个 语义 记录 引用 表 的 后 级 。 因 此 $$ 将 
指定 在 left index 位 置 的 语义 栈 条 是 ， 而 $1 指 在 right _index 处 的 条 目 ， $2 指 在 right index+1 处 
MAA. LAA. 
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void lldriver (void) 
{ 





int left index = -1, right index = -1; 
int current index, top index: 
/* 

* Push the Start Symbol onto 


push (s) ; 


/* Initialize the semantic stack. */ 
current index = 0; 
top index = 1; 


while (! stack empty() ) { 
/* Let a be the current input token. */ 













X = pop(); 
if (is nonterminal (X) 
ee T[X] [a] X Y1 - * * Yad d 


/* Expand nonterminal */ 
Push EOP(ieft index, right index, 
current index, top index) on the parse stack: 
Push Y, > - - Y, on the parse stack; 
left index = current index; 
right index = top index; 
top index += m; 
. /* m is the number of non-action symbols x/ 
current index = right index: 
) else if (is: terminal(X) && X == a) ( 
Place token information from scanner 
in sem stack[current index]; 
current index*t; 
scanner(& a); /* Get next token */ 
} else if (X == EOP) { 
Restore left_index, right_index, current_ index, 
top_index | from the ZOP symbol; 
/* Move to next symbol in RHS */ 
/* of previous productioh */ 
current indextt*; 
) else if (is. action symbol(X)) 
Call Semantic Routine corresponding to X; 
else 
/* Process syntax error */ 














图 7-9 包含 语义 栈 管理 的 1ldrivez() 


我 们 也 需要 一 个 在 分 析 产 生 式 时 能 知道 语义 信息 存储 在 哪里 的 约定 。 初始 信息 被 存储 在 产生 式 左 部 
的 语义 记录 中 。 在 分 析 非 终结 符 之 前 我 们 将 所 有 必要 的 语义 信息 转移 到 该 非 终 结 符 的 语义 记录 中 ， 因 此 
在 该 非 终结 符 被 作为 左 部 符号 时 其 语义 记录 已 经 准备 好 。 在 产生 式 的 整个 右 部 已 经 完成 时 ， 我 们 将 所 有 
作为 结果 的 语义 信息 存储 在 左 部 的 语义 记录 中 ， 因 为 右 部 的 语义 栈 即 将 消失 。 

图 7-10 再 次 给 出 Micro 文 法 ， 其 中 带 有 传 给 动作 例 程 的 栈 条 目 参数 规范 ， 它们 将 用 于 分 析 器 控制 的 语 
义 栈 。 上 述 文法 以 标准 BNF 而 不 是 扩展 BNF 书 写 ， 以 便 指定 作为 参数 传 给 动作 例 程 的 语义 栈 条 目的 位 置 。 

图 7-11 举 例 说 明了 当 产 生 式 被 LL(1) 分 析 器 预测 时 语义 栈 的 创建 过 程 。 语义 栈 中 的 条 目 被 标记 以 它 
们 所 表示 的 文法 符号 而 不 是 它们 所 含有 的 语义 记录 版 本 。 图 7-11a 显 示 在 开始 符号 <system goal> 被 压 入 
分 析 栈 中 之 后 分 析 栈 和 语义 栈 的 状态 ， 而 产生 式 <system goal» 一 «program» $ #finish 和 <program> 
— #start begin «statement list» end 已 被 预测 。 图 7-11b 显 示 在 start( ) 被 调用 、begin 被 匹配 以 及 
«statement list> 被 展开 之 后 的 状态 。 图 7-11 c 显 示 将 <statement> 展 开 为 赋值 语句 的 状态 ， 而 图 7-11d 显 
示 <ident> 和 := 被 匹配 而 且 <expression> 被 展开 之 后 的 栈 状态 。 图 7-1 1d 中 语义 栈 上 <ident> 的 条 目 尤 其 
有 趣 。 它 在 语义 上 是 重要 的 ， 其 中 包含 有 关 赋 值 目标 标识 符 的 信息 。 其 相应 的 条 目 在 它 先 前 被 匹配 时 就 
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«program» 
«statement list» 
«statement tail» 
«Statement tail 
«Statement» 
«statement» 
«statement» 
«id list» 

«id tail 

«id tail» 

«expr list» 
«expr tail» 
«expr tail> 
«expression» 
«primary tail> 


«primary tail> 
«primary» 
«primary» 
«primary 
«add op» 
«add op» 
<ident> 
<system goal> 


Lldddddudddard 


— 


ILLL 


从 分 析 栈 中 弹出 ， 但 语义 条 上 且 留 在 栈 中 供 assign() 动 作 例 程 使 用 。 






#start begin <statement list> end 
<Statement> <statement tail> 
<statement> <statement tail> 

À 

«ident» := «expression» ; #assign($1,$3) 
read ( «id list» ) ; 

write ( <expr list» ) ; 

«ident» #read_id($1) «id tail> 

, «ident» s read id($2) «id tail» 

À 

«expression» #write_ expr($1) «expr tail» 

, «expression» #write_expr($2) «expr tail» 


«primary: #copy($1,$2) «primary tail» #copy($2,$$) 
«add op» «primary» #gen_infix($$,$1,$2,$3) 
«primary tail» #copy($3,$$) 

入 


( «expression» ) #copy($2,$$) 
«ident» #copy($1,$$) 
INTLITERAL #process_literal($$) 
PLUSOP ffprocess op($$) | 
MINUSOP #process_op($$) 

ID #process_id($$) 

«program» $ stfinish 


图 7-10 带 参 数 化 动作 符号 的 Micro 文 法 











| | #Start _ 
|. "begin — 
| «simis | 
end 
EOP(.2.2.4) _ 
$s S 
| Finish — 
| EOP(0,0.1.2) | 


分 析 栈 















<— top_index 


<— right_index, 
current index 


<— left_index 


语义 栈 


a) 刚刚 预测 <program> 一 #start begin «statement list» end 之 后 的 栈 

















EOP(1,2,2,4) 
|__#Finish | 
EOP(0,0,1,2) 


分 析 栈 

















<— top index 


«stmt list» 


<— right index, 
current index 


[ ssmttab | 


*— left index 







语义 栈 
b) 刚刚 预测 <statement list» 一 «statement» «statement tail>z 后 的 栈 


图 7-11 
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|o om | 

| 

<— right index, 
77. current index 
e 





EOP(5,7,7,9) 





*— left index 





By NC 语义 栈 
c) 网 网 预测 <statement> — «ident» : = «expression» ; #assign($1, $3) 之 后 的 栈 






ee top_index 
<primary tail> 
[ <primary> | <— right_index, 
|] 
left_index 
<stmt tail> 


<statement> 











#Assign($1,$3) 
EOP(5,7,7,9) 







分 析 栈 语义 栈 
d) 刚刚 预测 <expression> —«primary» #copy($1, $2) «primary tail> #copy($2, $$) 之 后 的 栈 





图 7-11 《 续 ) 


辅助 例 程 1ookup()、entezr () 、 check id() 和 get_temp()， 以 及 动作 例 程 start() 和 
finish( ) 的 代码 可 以 与 第 2 章 中 的 完全 相同 。 在 第 2 章 中 产生 语义 记录 的 语义 例 程 被 写成 函数 ; REE 
们 必须 是 带 有 指针 参数 的 过 程 。 所 有 动作 例 程 必须 变 为 以 一 般 的 类 型 semantic_record 为 参数 。 这 些 
改变 在 图 7-12 中 举例 说 明 。(assert( ) 宏 保证 被 调用 的 例 程 带 有 正确 的 参数 。 如 果断 言 失败 ， 编 译 器 应 
当 在 发 出 一 条 “内 部 错误 ”诊断 信息 后 退出 。) 


 #$include <assert .h> 


void process id(semantic record *id record) 
( 
/* Declare ID 6 build corresponding semantic record */ 
check id(token buffer): 

id record-»record kind = EXPRREC; 
id_record->expr_record. kind = IDEXPR; 


strcpy (id record-»expr record. name, token buf fer): 
} 
void process literal (semantic record *id record) 
{ 
/ * 
* Convert literal to a numeric representation 
* and build semantic record. 





图 7-12 修改 后 的 Micro 动 作 例 程 





we X Ab FE 


*/ 

id: record->record | kind = EXPRREC; 

id | | record-»expr record.kind = LITERALEXPR; 

sscanf (token ! buffer, "ed", £id | record-»expr _ record.val) ; 


} 


void process_op (semantic record *op) 
{ 
/* Produce operator descriptor. */ 
op->record kind = OPREC; 
if (current_token == PLUSOP) 
op->op_record. operator = PLUS; 
else 
op->op_record.operator = MINUS; 
} 


void gen_infix(const semantic_record el, 
const semantic_record op, 
const semantic record e2, 
semantic record *result) 


assert(el.recorád kind == EXPRREC); 
assert(op.record kind = OPREC); 
assert(e2.record kind == EXPRREC); 


/* Result is an expr rec with temp variant set. */ 
result-»record kind = EXPRREC; 
result-»expr record.kind = TEMPEXPR; 


/* 
* Generate code for infix operation. 
* Get result temp and semantic record for result. 
*/ 
strcpy (result->expr_record.name, get temp()): 
generate (extract (op), extract (el), extract (e2), 
result->expr_record. name) ; 


} 


void assign(const semantic record target, 
const semantic record source) 
{ 
assert (target .record_kind == EXPRREC); . 
assert (target .expr_record.kind = IDEXPR); 
assert (source. record kind == EXPRREC); 


/* Generate code for assignment. */ 
generate("Store", extract (source), 
target .expr_record.name, wry; 


} 


void read id(const semantic record in var) 
( 
assert (in var. record kind == EXPRREC) ; 
assert (in var.expr record.kind = IDEXPR); 


/* Generate code for read. */ 
generate ("Read", in var.expr record.name, 
"Integer", wey; 
} 


void write_expr (const semantic record out expr) 


{ 
assert (out_expr.record kind == EXPRREC) ; 


generate ("Write”", extract (out expr), 
" Integer " P "n ) ; 
} 


/* 
* Copy information from one part of 
* the Semantic Stack to another 
*/ 
void copy (semantic _ record *source, 
semantic _ record *dest) 


{ 
*dest = *source; 


) 


图 7-12 (4%) 
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这 些 语义 例 程 对 语义 栈 的 内 容 不 做 任何 隐 含 的 假定 ， 它 们 也 不 以 任何 方式 操纵 栈 。 嵌 人 在 文法 中 的 
动作 看 起 来 比 我 们 在 第 2 章 的 Micro 文 法 中 所 指定 的 更 为 复杂 ， 后 者 可 以 利用 动作 控制 的 语义 栈 。 我 们 看 
起 来 拥有 很 多 的 动作 ， 而 且 这 些 动作 通常 只 是 将 语义 记录 从 栈 的 一 个 位 置 复制 到 另 一 个 位 置 。 实 际 上 ， 
如 果 我 们 适当 地 实现 语义 栈 ， 所 有 这 些 复制 都 可 以 通过 指针 操作 来 实现 ， 因 此 除了 额外 的 过 程 调用 外 ， 
分 析 器 控制 的 机 制 不 一 定 效率 低下 。 它 易于 正确 编程 的 事实 可 以 胜 过 它 所 引入 的 较 少 的 低 效 性 。 

使 用 LL 分 析 器 控制 的 语义 栈 的 一 个 明显 缺陷 是 栈 可 能 变 得 非常 大 。 例 如 ， 如 果 一 个 程序 有 100 条 语 
句 ， 并 且 我 们 使 用 图 7-10 中 的 Micro 文 法 ， 则 由 于 构造 <statement tail> 的 递归 产生 式 ， 语义 栈 将 需要 至 少 
200 个 条 目 。 栈 的 增长 是 我 们 所 不 希望 的 ， 因 为 语义 处 理 不 可 能 使 用 这 么 多 条 目 来 完成 处 理 。 如 果 语 法 分 
析 器 生成 器 识别 出 其 语义 记录 从 不 使 用 的 非 终 结 符 ， 则 这 个 问题 可 以 被 克服 。 这 样 的 非 终 结 符 很 容易 识 
别 ， 在 它们 的 任意 产生 式 中 都 没有 动作 符号 ， 或 者 其 产生 式 中 的 动作 符号 从 不 使 用 $$ 作 参数 。 在 图 7-10 
的 文法 中 ，<statement list> 和 <id list> 就 是 这 种 非 终结 符 的 例子 。 一 旦 这 些 非 终结 符 被 鉴别 出 来 ， 语 法 
分 析 器 生成 器 将 会 在 它们 的 每 条 产生 式 的 最 后 一 个 非 终 结 符 之 前 插入 一 种 新 的 动作 符号 ， 前 提 是 那个 非 
终结 符 后 面 没有 动作 符号 跟随 。 这 个 我 们 称 之 为 reuse 的 新 符号 告诉 语法 分 析 器 的 驱动 程序 ， 那 些 与 当 
前 产生 式 左 部 一 同 存储 的 语义 信息 是 不 需要 的 ， 因 此 ， 随 后 的 非 终结 符 的 展开 可 以 复 用 那个 语义 栈 的 相 
同 部 分 。 例 如 ，Micro 文 法 有 产生 式 : 


243 «statement list» — «statement» «statement tail» 
l <statement tail> -> <statement> <statement tail> 
244 «statement tail» — A 


没有 和 <statement tail> 或 <statement list> 相 关联 的 语义 信息 。 当 语法 分 析 器 匹配 <statement list> 时 , 
它 可 以 重用 为 <statement list> 产 生 式 的 右 部 符号 所 保留 的 语义 栈 空 间 以 展开 <statement tail>。 对 先前 
保留 的 语义 栈 空 间 所 做 的 同样 类 型 的 重用 对 于 <statemenl tail> 的 递归 展开 也 是 合适 的 。 因 此 reuse 符 号 
的 插入 如 下 所 示 : 


«statement list» — «statement» #reuse «statement tail> 
«statement tail» — «statement» #reuse «statement tail» 
«Statement tail» 一 入 


ildriver() 主 循环 中 额外 处 理 reuse 的 情况 由 下 列 代码 说 明 : 


else if (X == reuse) ( 
/* Let X be the new top stack symbol. */ 
if (T[X][a] == X > Y, - - YY) í 

/* Expand nonterminal */ 

Push EOP(left index, right index, ~ 
current index, top index) on the 
parse stack; 

Push Y, - >- Y, on the parse stack; 

top index = right index + m; 

/* m is the number of nonaction symbols */ 

current index = right index; 

) eise 
/* Process syntax error */ 


) 


评价 
分 析 器 控制 栈 与 LR 分 析 结 合 得 非常 好 ， 很 难 反 对 将 它们 与 这 样 的 语法 分 析 器 一 同 使 用 。 这 些 概念 
在 Yacc 中 的 成 功 集成 说 明了 该 组 合 的 简单 性 和 实用 性 。 而 对 于 LL 分 析 器 ， 情 况 并 不 这 么 清楚 。 对 于 LL 
分 析 器 来 说 ,分 析 器 控制 的 语义 栈 和 分 析 栈 之 间 的 关系 比 在 LR 分 析 器 中 更 为 复杂 。 因 此 支持 LL 分 析 吕 
使 用 的 分 析 器 控制 的 栈 的 语法 分 析 器 生成 器 较为 罕见 。 
在 以 上 两 种 情况 下 , 分 析 器 控制 的 栈 的 优点 是 语义 例 程 不 需要 对 语义 栈 的 内 容 作出 任何 隐 含 的 假定 ， 
它们 也 不 以 任何 方式 操纵 栈 。 然 而 ， 比 起 动作 控制 的 语义 栈 ， 分 析 器 控制 的 栈 要 求 更 多 的 动作 必须 被 媒 
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入 到 文法 中 。 上 额外 的 动作 简单 地 将 语义 记录 从 栈 的 一 个 位 置 复制 到 另 一 个 位 置 。 如 果 语 义 栈 被 适当 地 实 
现 ， 则 所 有 这 样 的 复制 都 可 以 通过 指针 操作 执行 ， 但 这 可 能 有 其 他 性 能 上 的 损失 。 分 析 器 控制 栈 使 得 更 
易于 正确 地 编写 语义 例 程 这 一 事实 可 以 胜 过 它 所 引入 的 较 少 的 低 效 性 。 

最 后 ， 使 用 分 析 器 控制 的 语义 栈 限 制 了 栈 中 的 信息 如 何 表示 。 例如 ， 与 单个 非 终结 符 ( 如 
«identifier list») 对 应 的 列表 项 ， 可 以 利 必 动作 控制 的 栈 以 多 个 栈 条 旭 来 表示 。 相 反 ， 在 分 析 器 控制 的 栈 
中 每 个 非 终结 符 都 被 限制 为 单个 栈 条 目 ， 需 要 使 用 栈 外 的 存储 空间 来 存放 与 这 类 非 终结 符 相 关 的 信息 。 


7.3 中 间 表 示 和 代码 生成 


7.3.1 比较 中 间 表 示 和 直接 代码 生成 


在 设计 语义 例 程 和 代码 生成 器 时 ， 必 须 决定 是 生成 某 种 中 间 表 示例 如 外 元 组 、 三 元 组 或 树 ) ， 还 
是 直接 生成 目标 代码 。 两 种 选择 都 有 某 些 优点 。 利 用 中 间 表 示 的 优点 包括 : 

。 目 标 机 器 被 抽象 为 某 种 虚拟 机 。 面 向 程序 设计 语言 的 原 语 ， 如 Open BlockfüCall Procedure 通 党 

是 虚拟 机 接口 的 一 部 分 。 这 种 抽象 可 帮助 将 高 级 操作 与 可 能 的 低级 的 与 机 器 相关 的 实现 分 离开 。 

。 代 码 生成 和 通常 的 临时 变量 到 寄存 器 的 指派 从 语义 例 程 中 清晰 地 分 离 出 来 ， 而 语义 例 程 仅 处 理由 

中 间 表 示 给 出 的 抽象 。 对 目标 机 器 的 依赖 更 为 谨慎 地 与 代码 生成 例 程 隔离 。 

。 优 化 可 以 在 中 间 表 示 一 级 完成 。 这 种 组 织 方 式 使 优化 在 很 大 程度 上 与 目标 机 器 无 关 ， 并 使 得 复杂 

的 优化 例 程 更 具 可 移植 性 。 因 为 中 间 表 示 有 意 更 为 抽象 和 一 致 ， 优 化 例 程 也 就 可 以 更 加 简单 。 
直接 生成 目标 代码 的 优点 包括 : | 

。 可 以 避免 将 内 部 表示 翻译 为 目标 代码 的 那个 可 能 的 额外 分 析 阶 段 的 开销 。 246 

。 对 于 适当 的 程序 设计 语言 允许 概念 上 简单 的 一 遍 编 译 模 型 。 
如 果 优 化 或 可 移植 性 是 重要 的 因素 ， 则 中 间 表 示 拥 有 真正 的 价值 。 如 果 这 些 因素 并 不 重要 ， 则 简单 的 直 
接 代码 生成 更 为 可 取 。 | 

隔离 和 参数 化 目标 机 器 细节 需要 极度 小 心 。 寻 址 模式 和 数据 大 小 、 是 否 存在 寄存 器 、 操 作 的 效率 等 
等 都 是 与 目标 机 器 相关 的 。 此 外 ， 如 果 最 初 的 设计 不 易于 移植 ， 则 为 移植 编译 器 所 进行 的 后 续 修 改 将 会 
极度 困难 和 昂贵 ， 因 为 我 们 必须 找 出 并 去 除 所 有 的 机 器 相关 性 。 


7.3.2 中 间 表 示 的 形式 


在 编译 器 的 历史 上 ， 由 于 多 种 原因 使 用 了 多 种 中 间 表 示 。 最 简单 的 可 能 是 后 级 表示 (postfix 
notation) ， 它 作为 算术 表达 式 的 无 括号 表示 ， 在 用 于 编译 器 之 前 就 在 数学 上 广为人知 。 正如 其 名 字 所 脐 
示 的， 后 绥 表 示 中 运算 符 出 现在 其 所 作用 的 操作 数 之 后 。 图 7- 13 中 的 示例 说 明 简 单程 序 设计 语言 中 表达 
式 和 语句 与 其 后 缀 表示 的 对 应 关系 。 





a+b ab+ 

a+b*c abc*+ 

(a+b) *c ab«c* 
a: b*cebsd |abc*bd*+ := 


图 7-13 后 级 表示 示例 


后 级 表示 的 主要 吸引 力 在 于 翻译 过 程 简单 以 及 表示 简洁 。 这 些 因素 使 得 它 作为 驱动 解释 器 的 中 间 表 
示 尤 其 有 用 。 事 实 上 ， 后 绿 作为 优化 器 或 代码 生成 器 的 输入 并 不 是 特别 有 效 ， 除 非 最 终 的 目标 机 器 拥有 
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栈 体系 结构 。 

我 们 考虑 的 下 一 类 IR 有 时 被 称 为 三 地 址 码 (three-address code )。 这 类 IR 是 虚拟 三 地 址 机 器 汇编 码 
的 有 效 推广 。 即 ， 每 条 “指令 ”由 一 个 运算 符 和 三 个 地 址 组 成 ， 其 中 两 个 作为 操作 数 ， 一 个 作为 结果 位 
置 。 这 类 豆包 括 许多 稍 有 不 同 的 表示 ， 其 中 最 重要 的 是 三 元 组 (triple) 和 四 元 组 (quadruple)。 这 些 表 
示 法 和 后 缀 表示 的 主要 区 别 在 于 它们 包含 对 结果 或 中 间 结 果 的 显 式 引 用 ， 而 在 后 组 表示 中 这 些 结果 是 从 
栈 中 隐 式 引用 的 。 三 元 组 和 四 元 组 的 区 别 是 ， 中 间 值 在 三 元 组 中 由 创建 它们 的 元 组 编号 引用 ， 而 四 元 组 
要 求 它 们 给 出 显 式 的 名 字 。 利 用 图 7-13 赋 值 语句 的 例子 ， 可 得 到 图 7-14 所 示 的 三 元 组 和 四 元 组 表示 。( 破 
折 号 一 一 用 于 四 元 组 和 三 元 组 中 表示 未 使 用 的 操作 数 。) 


a:=b*c+b*d 





(1) (*, b, C) (1) (*, b, c, t1) 
(2) (*, b, d) (2) (*, b, d, t2) 
(3) (+, (1), (2)) | (3) (+, t1, t2, t3) 
(4) (:=, (3), a) (4) (:=, t3, a, —) 





图 7-14 三 地 址 表示 一 一 示例 1 


三 元 组 有 更 为 简洁 的 明显 优点 , 但 它们 的 位 置 依赖 性 使 得 涉及 移动 或 删除 代码 的 优化 变 得 相当 复杂 。 
这 两 种 形式 与 后 缀 表示 都 编码 有 相同 的 信息 ， 但 三 元 组 和 四 元 组 对 于 接 下 来 的 翻译 步 又 、 且 标 机 器 代码 
的 生成 来 说 相当 方便 。 在 最 简单 的 情况 下 ， 代 码 生成 可 以 被 想像 为 比 宏 展 开 稍 复杂 一 点 的 过 程 ， 变 量 和 
临时 变量 的 位 置 充当 每 个 可 能 的 运算 符 的 宏 的 参数 ， 

图 7-14 中 的 三 元 组 和 四 元 组 实际 上 并 不 包含 通过 宏 展开 完成 代码 生成 的 足够 信息 。 作 为 操作 数 出 现 
的 名 字 可 能 代表 符号 表 条 目 ， 为 发 现 操作 数 的 类 型 以 及 它们 的 地 址 ， 必 须 引用 这 些 条 目 。 操 作 数 类 型 必 
须 随后 用 于 确定 实现 符号 运算 符 (+ 和 *) 所 需 的 实际 指令 。 如 果 代码 生成 器 的 简单 性 是 主要 的 考虑 因素 ， 
则 可 以 使 用 稍 详细 一 些 的 表示 。 在 图 7-15 的 示例 中 ， 假 定 a 和 d 是 实 型 变量 ， 而 b 和 c 是 整 型 变量 。 还 假定 
这 是 一 条 Pascal 语 句 ， 以 允许 这 种 类 型 的 混合 。 | ` 


a:=b*c+b*d 






三 元 组 






四 元 组 


(1) (MULTI, Addr(b), Addr(c), t1) 
(2) (FLOAT, Addr(b), t2, —) 
(3) (MULTF, t2, Addr(d), t3) 
(4) (FLOAT, t1, t4, —) 

(5) (ADDF, t4, t3, t5) 

(6) (:=, t5, Addr(a), —) 


(1) (MULTI, Addr(b), Addr(c)) 
(2) (FLOAT, Addr(b), 一 ) 
(3) (MULTF, (2), Addr(d)) 
(4) (FLOAT, (1) — 
(5) (ADDF, (4), (3) 
(6) (:=, (5), Addr(a)) 





图 7-15 三 地 址 表示 一 一 示例 2 


这 两 个 三 地 址 示例 的 主要 区 别 在 于 , 第 一 个 示例 ， 和 后 级 表示 一 样 ， 实际 上 是 输入 在 语法 上 的 变换 ， 
而 第 二 种 表示 则 更 多 地 是 一 种 基于 程序 设计 语言 语义 的 翻译 。 无 论 在 哪 种 情况 下 ， 都 假定 对 输入 已 经 完 
成 了 静态 语义 检查 ， 因 此 代码 生成 器 不 需要 担心 处 理 像 变量 未 定义 和 类 型 相 容 性 错误 这 样 的 问题 。 如 果 
实际 已 经 完成 了 这 样 的 检查 ， 则 不 需要 额外 的 工作 来 识别 芯 中 的 特殊 运算 符 ， 如 图 7-15 所 示 。 

三 元 组 和 四 元 组 ， 像 后 缀 表示 一样 ， 基 本 上 是 面向 表达 式 的 。 它 们 所 允许 的 操作 数 数量 不 必 兼 顾 其 
他 用 途 。 例 如 ， 在 四 元 组 示例 中 的 赋值 运算 符 有 一 个 未 使 用 的 操作 数 。 无 论 使 用 三 元 组 还 是 四 元 组 ,无 
条 件 分 支 指令 都 只 需要 一 个 操作 数 。 因 此 ， 将 四 元 组 的 概念 推广 到 根据 运算 符 不 同 而 操作 数 数目 可 变 的 
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元 组 (tuple) 是 有 用 的 。 再 次 回 到 赋值 语句 的 例子 ， 图 7-16 说 明 相 应 的 元 组 表示 。 


ai=bec+bed 


(1) (MULTI, Addr(b), Addr(c), tt) 


(2) (FLOAT, Addr(b), t2) 
(3) (MULTF, t2, Addr(d), t3) 
(4) (FLOAT, t1, t4) 

(5) (ADDF, t4, t3, t5) 

(6) (:=, t5, Addr(a)) 





图 7-16 元 组 表示 示例 


正如 本 章 开头 所 建议 的 ， 基 于 分 析 树 的 结构 是 最 一 般 的 中 间 表 示 。 出 于 代码 生成 的 目的 ， 树 最 早 是 
用 来 表示 单独 的 语句 中 的 表达 式 。 对 于 某 些 目标 机 器 类 ， 有 基于 树 或 有 向 无 环 图 (DAG) 表示 的 表达 式 
最 优 代码 生成 算法 。( 这 种 算法 在 第 15 章 中 讨论 ,) 近来 ， 表 达 式 树 这 个 概念 已 经 被 推广 到 整个 程序 的 抽 
象 语法 树 表示 。 

使 用 抽象 语法 树 能 够 有 效 地 统一 若干 需要 某 种 形式 中 间 表 示 的 编译 的 不 同方 面 。 例 如 ， 某 些 语言 249 
求 多 遍 处 理 来 完成 静态 语义 检查 ， 因 为 标识 符 的 使 用 在 代码 的 文本 中 可 以 出 现在 相应 声明 之 前 。 在 这 种 
情况 下 ， 第 一 遍 处 理 程序 ,包括 词法 分 析 和 语法 分 析 ， 能 够 产生 树 和 符号 表 。 第 二 遍 只 是 简单 的 树 遍 历 ， 
将 传播 属性 并 完成 静态 语义 检查 。 作 为 树 变换 实现 的 机 器 相关 优化 可 以 由 另 一 次 遍历 完成 。 最 终 ， 又 一 
次 的 树 遍历 可 以 直接 生成 代码 或 产生 一 种 不 同 的 〈 更 简单 的 ) 更 适合 于 特定 的 与 机 器 相关 的 代码 生成 器 
或 优化 器 的 表示 。 

因此 ， 我 们 看 到 抽象 语法 树 作 为 一 种 多 用 途 表示 ， 可 以 用 于 语义 分 析 、 优化 和 代码 生成 。 事实 上 ， 
它们 的 用 途 更 为 丰富 。 许 多 Ada 的 实现 基于 称 为 Diana 的 特定 的 抽象 语法 表示 。Diana 不 仅 用 于 所 描述 的 
编译 器 中 ， 它 还 作为 独立 编译 单元 的 程序 库 〈( 包 和 过 程 ) 表示 ， 以 及 作为 和 其 他 工具 韶 的 公共 接口 。 我 
们 将 Diana 称 为 抽象 语法 表示 而 不 是 抽象 树 表示 ， 因 为 它 实 际 上 是 DAG 而 不 是 真正 的 树 。 抽 象 语法 树 在 
第 14 章 中 进一步 讨论 。 


7.3.3 一 个 元 组 语言 


第 10 章 ~ 第 13 章 中 概述 的 语义 例 程 将 生成 元 组 作为 中 间 表 示 。 在 此 我 们 定义 用 于 这 些 章节 的 元 组 语 
言 。 图 7-17 中 所 列 运 算 符 的 元 组 包括 操作 数 和 由 


RESULT := ARG1 OP ARG2 
所 定义 的 标准 解释 。 关 系 和 逻辑 运算 符 返 回 1 表示 真 ，0 表 示 假 。 


ADD! ADDF SUBI SUBF MULT! MULTF DIVI 
DIVF MOD REM EXPI  EXPF AND OR 
XOR EQ NE GT GE LT LE 


| 图 7-17 标准 三 地 址 元 组 运算 符 
在 图 7-18 中 列 出 的 运算 符 的 元 组 有 如 图 所 定义 的 特殊 的 解释 以 及 不 同 数目 的 操作 数 。 250 
作为 如 何 使 用 这 些 元 组 的 示例 ， 考 虑 图 7-19 中 的 程序 和 相应 的 元 组 。 为 简单 起 见 ， 该 示例 中 假定 有 

读 写 整数 的 元 组 运算 符 。 

练习 


1， 在 7.1 节 中 对 语法 制导 翻译 的 讨论 基于 这 样 的 假定 ， 抽象 语法 树 可 以 从 语法 分 析 器 在 分 析 一 个 程序 时 
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所 生成 的 分 析 动 作 序列 构造 出 来 。 抽 象 语法 树 不 是 字面 分 析 树 ， 它 包含 相应 分 析 树 的 “语义 上 有 用 


Ry" S. 


(a) 给 定 一 个 从 LL 或 LR 分 析 器 生成 的 动作 序列 构造 分 析 树 的 算法 ， 
(b) 说 明 如 何 修改 该 算法 以 产生 抽象 语法 树 。 








UMINUS 
NOTA 
ASSIGN 
FLOAT 
ADDRESS 
RANGETEST 
LABEL 

JUMP 
JUMPO 
JUMP1 
CASEJUMP 
CASELABEL 
CASERANGE 
















CASEEND 
PROCENTRY 
PROCEXIT 
STARTCALL 
REFPARAM 

















COPYIN 














COPYOUT 














COPYINOUT 














PROCJUMP 











2， 根 据 7.1.2 节 中 对 编译 器 组 织 方式 的 讨论 ， 检 查 你 所 熟悉 的 一 个 程序 设计 语言 。 解 释 该 





ARG2 : = -ARG1 
ARG2 : = not ARG1 
ARGS : = ARG1, 大 小 是 ARG2 


ARG2 : = FLOAT(ARG1) [ARG1 为 整数 形式 ] 


ARG2 : = ARG1 的 地 址 


如 果 ARG3 < ARG1 或 者 ARG3 > ARG2， 则 中 止 执行 


ARG1 用 于 为 下 一 条 元 组 加 标签 
跳 转 到 标记 为 ARG1 的 元 组 
如 果 ARG1 = 0 则 跳 转 到 ARG2 
如 果 ARG1 = 1 则 跳 转 到 ARG2 
ARG1 是 case 选 择 器 表达 式 
ARG1 是 case 语 句 标签 

ARG1 是 标签 区 间 的 下 界 
ARG2 是 标签 区 间 的 上 界 

不 带 参数 ，case 语 句 结束 符 
进入 处 于 骨 套 级 ARG1 的 子 程序 
退出 处 于 嵌 套 级 ARG1 的 子 程序 
ARG1 是 引用 活动 记录 的 临时 变量 
ARG1 是 实 参 

ARG2 是 参数 仿 移 


ARG3 是 活动 记录 的 引用 


ARG1 是 实 参 
ARG2 是 参数 偏 移 
ARG3 是 活动 记录 的 引用 
ARG1 是 实 参 
ARG2 是 参数 偏 移 
ARG3 是 活动 记录 的 引用 
ARG1 是 实 参 
ARG2 是 参数 偏 移 
ARG3 是 活动 记录 的 引用 
ARG1 是 子 程序 起 始 地 址 (标签 ) 
ARG2 是 活动 记录 的 引用 


图 7-18 元 组 运算 符 的 特别 解释 


(READI, A) 
(READI, B) 
(GT, A, B, tt) 
(JUMPO, t1, L1) 
(ADDI, A, 5, C) 
(JUMP, L2) 
(LABEL, L1) 


end itf; 

write(2 + (C - 1)); (ADDI, B, 5, C) 
end (LABEL, L2) 
(SUBI, C, 1, t2) 
(MULTI, 2, t2, t3) 
(WRITEI, t3) 


图 7-19 元 组 示例 


质 将 如 何 使 得 这 些 组 织 方式 非常 适合 或 不 适合 编译 该 语言 。 
3，7.2.3 节 中 的 语义 错误 处 理 的 讨论 描述 了 每 个 语义 例 程 处 理 它 的 一 个 或 多 个 输入 可 能 是 ERROR 记 录 时 





语言 的 特定 性 
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所 执行 的 标准 动作 。 概 述 一 个 代码 预 处 理 器 的 算法 ， 它 取 一 个 不 含 错误 处 理 代码 的 语义 例 程 作为 参 

数 ， 并 为 之 添加 适当 的 代码 以 处 理 ERROR 记 录 。 | 

将 语义 栈 实现 为 数组 的 一 个 明显 缺点 是 存在 因数 组 的 固定 大 小 而 引起 栈 溢出 的 可 能 性 。 尽 管 有 这 样 

的 缺点 ， 数 组 还 是 比 链表 更 常用 于 语义 栈 的 实现 ， 这 是 因为 它们 简单 ， 以 及 push( ) 和 Pop( ) PELL 

使 用 动态 分 配 的 语义 记录 表 更 为 高 效 。 设计 另 一 种 语义 栈 的 实现 ， 它 可 处 理 任意 数量 元 素 的 栈 ， 但 

只 要 栈 中 的 记录 数 小 于 某 个 固定 的 值 ， 其 效率 就 接近 于 数组 。 以 分 析 或 经 验 来 比较 你 的 实现 与 数组 

实现 的 性 能 。 : 

. 在 图 7-10 Micro 的 分 析 器 控制 的 栈 文法 中 添加 一 条 7.1.3 节 中 的 if 语句 产生 式 。 下 列 信息 应 当 作 为 参数 

化 动作 符号 的 基础 : | 

(a) start if() 动 作 例 程 要 求 与 <expression> 关 联 的 语义 记录 作为 输入 并 将 信息 留 在 与 then 相 关 
联 的 语义 记录 中 。 | 

(b) finish if() 使 用 start_if1( ) 的 输出 作为 输入 ， 并 且 不 产生 语义 记录 ，。 

再 添加 一 条 包含 else 部 分 的 if 语 名 产生 式 。 此 时 ， 我 们 将 不 得 不 引入 一 个 新 的 动作 例 程 ， 它 使 用 

start_if() 的 输出 作为 输入 ， 并 把 输出 留 给 finish_if()。 

.设计 一 个 算法 重 写 带 有 内 部 动作 符号 的 产生 式 ， 以 使 它们 可 用 于 LR 分 析 器 。( 参 见 7.2.2 市 。) 

， 利 用 图 7-10 中 的 产生 式 ， 在 下 列 Micro 程 序 被 编译 时 跟踪 由 LL 或 LR 分 析 器 所 驱动 的 分 析 器 控制 的 语 

MR: 


.将 练习 7 的 程序 翻译 为 7.3.2 节 中 的 后 缀 式 、 三 元 组 和 元 组 。 
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第 8 章 符 号 表 


符号 表 (symbol table) 是 一 种 将 值 或 属性 与 名 字 相 关联 的 机 制 ， 当 我 们 使 用 这 些 值 时 ， 可 借助 它 
们 的 名 字 来 访问 。 因 为 这 些 属 性 代表 着 与 之 关联 的 名 字 的 含义 (或 语义 ) ， 所 以 符号 表 有 时 也 称 为 字典 
(dictionary )。 符 号 表 是 编译 器 必 不 可 少 的 组 成 部 分 ， 因 为 每 个 名 字 的 定义 仅 能 在 程序 中 某 个 惟一 的 地 方 
出 现 一 一 即 它 的 声明 点 ， 而 该 名 字 的 使 用 却 可 出 现在 程序 文本 中 的 许多 地 方 。 每 次 使 用 一 个 名 字 时 ， 符 
号 表 提 供 到 在 处 理 该 名 字 声 明 时 所 收集 信息 的 访问 。 即 使 在 像 FORTRAN 那 样 不 要 求 显 式 声明 的 语言 里 ， 
名 字 的 第 一 次 出 现 也 充当 着 声明 的 角色 而 在 符号 表 中 为 该 名 字 建 立 相应 条 上 且 。 该 名 字 的 首次 出 现 同样 是 
如 此 构造 的 符号 条 目的 立即 使 用 者 。 无 论 是 在 单 遍 还 是 在 多 刀 组 织 的 编译 器 中 ， 符 号 表 总 是 语义 处 理 的 
集成 部 分 。 


8.1 符号 表 接 口 


对 于 符号 表 ， 我 们 感 兴趣 的 有 两 个 地 方 : 其 一 是 那些 与 符号 表 相关 且 在 编译 器 其 他 组 件 中 均 可 见 的 
操作 ; 其 二 是 那些 操作 的 实现 方式 。 这 一 章 里 主要 讨论 实现 上 问题， 但 在 描述 操作 的 实现 之 前 ， 我 们 首先 
要 考虑 一 个 符号 表 的 抽象 定义 。 我 们 的 符号 表 接 口 可 以 通过 图 8-1 中 的 定义 与 声明 来 定义 。 习 惯 上 ， 这 些 
定义 与 声明 将 被 组 织 并 存放 到 一 个 头 文件 中 以 定义 符号 表 “ 包 。 

















typedef char string (MAXSTRING] ; 
typedef struct symtab { 

} «symbol table; /* a pointer */ 
typedef struct id entry { 

) id entry; 


/* Create a new (empty) symbol table. */ 
extern symbol table create(void); 


/* Remove all entries in table and destroy it. */ 
extern void destroy(symbol table table); 


/* 
* Enter name in table; return a reference to the 
* entry corresponding to name and a flag to 
* indicate whether the name was already present. 
*/ 

extern void enter(symbol table table, 

const string name, 

id entry “entry, 

boolean *present): 















/* | 
* Search for name in table; return a reference to 

* the entry corresponding to name (if there is one) 

* and a flag to indicate whether the name was present. 
*/ | | 

extern void find(const symbol table table, 

const string name, 
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id entry *entry, 
boolean *present); 


/* Associate the attrs record with entry. */ 
extern void set attributes(id entry *entry, 


const attributes *attrs); 
/* Get the attributes record associated with entry. */ 
extern void get attributes(const id entry entry, 
attributes *attrs) ; 





图 8-1 《〈 续 ) 


该 接口 提供 了 符号 表 的 抽象 视图 ， 即 它 未 明确 指出 符号 表 是 如 何 实 现 的 。 甚 至 也 未 指明 将 名 字 和 属 
性 相关 联 的 方法 。 此 外 ， 该 接口 支持 存放 任意 数目 的 符号 表 。 类 型 attributes 的 定义 见 第 10 章 。 


8.2 基本 实现 技术 


在 符号 表 的 实现 中 ， 我 们 首先 考虑 的 是 例 程 enter ( ) 和 find( ) 将 如 何 存放 和 查找 名 字 。 根据 我 们 
所 希望 容纳 名 字数 量 (的 多 少 ) 以 及 所 期 望 获 得 的 性 能 (的 不 同 )， 符 号 表 有 多 种 可 能 的 实现 方式 : 

* EFR 

无 序 表 可 能 是 最 简单 的 存储 方式 。 所 需 的 数据 结构 仅仅 是 数组 ， 其 插入 操作 可 通过 将 新 名 字 放 入 下 
一 个 可 用 的 位 置 来 完成 。 我 们 也 可 以 使 用 链表 避免 因数 组 大 小 固定 而 带 来 的 种 种 限制 。 查 找 操作 可 以 简 


| 单 地 使 用 迭代 算法 来 进行 ,但 可 能 会 很 慢 ， 除 非 符号 表 中 包含 不 超过 20 个 左右 的 条 目 。 


。 有 序 表 

如 果 数 组 中 的 名 字 保 持 有 序 , 那么 可 使 用 二 分 搜索 法 进行 查找 , n 个 条 旧 所 需 的 查找 时 间 为 O(log(n))。 
然而 ， 这 要 求 每 个 新 条 目 都 必须 在 合适 的 位 置 上 插入 。 通 常 ， 在 一 个 有 序数 组 中 进行 插入 相对 较 晶 贵 。 
于 是 ,我 们 常常 在 事先 已 知 整个 名 字 表 的 情况 下 才 会 使 用 有 序 表 。 有 序 表 非 常 适 于 存放 保留 字 表 或 汇编 
操作 码 表 。 

* 二 又 搜索 树 

给 索 树 的 设计 兼 忆 了 链 式 型 雪 据 结构 的 大 小 灵活 及 插入 效率 ， 其 搜索 速度 可 由 二 分 搜索 法 保证 。 
平均 而 言 ， 在 由 随机 输入 组 成 的 二 又 搜索 树 中 添加 或 搜索 名 字 所 需 时间 为 (log(m))。 然 而 ， 对 符号 表 来 
说 ， 此 平均 情况 性 能 却 不 能 保证 ， 因 为 程序 中 使 用 的 标识 符 表 定 不 是 随机 出 现 的 。 二 又 搜索 树 的 优势 之 
一 是 由 于 它们 简单 且 广 为 人 知 的 实现 。 它 们 的 这 种 简单 性 以 及 人 们 对 其 较 好 的 平均 情况 性 能 的 认可 ,使 
得 二 又 搜索 树 成 为 一 种 受 欢 迎 的 符号 表 实现 技术 。 二 又 搜索 树 将 在 8.2.1 市 中 讨论 。 

MEE 

在 产品 级 编译 器 和 其 他 系统 软件 中 ， 险 希 表 可 能 是 最 常见 的 符号 表 实 现 方法 。 在 表 足 够 大 ， 并 有 好 
的 哈 希 函数 和 适当 的 冲突 处 理 技术 时 ， 无 论 表 中 有 多 少 条 目 ， 查 找 工作 可 在 常数 时 间 (constant time) 
内 完成 。 哈 希 表 将 在 8.2.2 市 中 详细 讨论 。 


8.2.1 二 又 搜索 树 


我 们 可 在 任何 有 关 数 据 结构 的 书 中 找到 简单 二 又 搜索 树 的 实现 算法 ， 因 此 这 里 不 再 丈 述 。 我 们 所 关 
注 的 是 采用 二 又 搜 索 树 的 符号 表 实 现 能 确保 何 种 可 接受 的 性 能 。 如 果 二 叉 树 是 完美 平衡 的 ， 那 么 所 期 户 
的 时 间 是 O(log(n))。 如 前 所 述 ， 由 随机 输入 构建 的 树 也 同样 有 与 树 中 项 目 数 的 对 数 成 正比 的 期 望 时 间 ， 
尽管 它 的 平均 搜索 时 间 大 约会 比 一 棵 平衡 树 的 要 多 38% (Knuth 1973)。 虽 然 如 此 ， 最 差 情况 下 的 性 能 才 
是 O(n)， 然 而 这 种 最 差 情况 却 不 大 可 能 实际 发 生 。 例 如 ， 以 字母 序 添加 名 字 (A, B, C, D, E) 导 致 实际 上 
是 线性 表 的 “ 树 ”"， 其 至 看 似 随机 的 名 字 序 列 也 能 产生 类 似 的 结果 (例如 ，A, E, B, D, C). 
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这 个 问题 可 以 通过 使 用 保持 树 近似 平衡 的 插 人 算法 而 得 到 解决 (Knuth 1973, p. 451)。 此 举 对 插入 
的 效率 影响 不 大 ， 但 它 却 使 实现 显著 地 复杂 化 。 树 平衡 算法 的 基本 思想 是 使 以 某 个 结 点 为 根 的 每 一 棵 子 
” 树 的 高 度 保持 在 它 史 弟子 树 的 高 度 内 。 而 全 部 子 树 在 插入 操作 使 结 点 失去 平衡 时 将 移 至 不 同 的 根 结 点 处 。 
这 种 通过 移动 子 树 而 非 个 别 结 点 完成 的 重新 平衡 方法 将 使 插入 代价 保持 在 O(log(n))。 

利用 二 叉 树 实现 符号 表 的 一 个 明显 优势 在 于 它 的 空间 开销 (为 存储 定义 树 的 指针 ) ERAR h 
数 成 正比 。 相 比 而 言 ， 无 论 已 添加 了 多 少 名 字 ， 哈 希 表 都 有 着 固定 的 空间 开销 ( 哈 希 表 目 身 的 存储 )。 
8.3 节 中 讨论 的 一 种 实现 技术 将 使 用 多 个 符号 表 而 非 单 个 的 全 局 符号 表 来 表示 各 种 程序 组 件 。 树 作为 这 
种 实现 方式 的 基础 有 着 明显 的 优势 。 


8.2.2 哈 希 表 


RRAK 

哈 希 表 的 中 心思 想 是 把 在 一 个 较 大 的 名 字 空 间 中 的 每 一 个 可 能 添加 到 符号 表 的 名 字 映 射 到 哈 希 表 中 
的 一 个 固定 的 位 置 上 。 此 映射 由 哈 希 函数 【hash function) 来 完成 。 

通常 ， 我 们 假定 哈 希 国 数 有 如 下 特征 : 

“ht(n) 只 依赖 于 n。 

。h 可 被 快速 计算 。 

。h 将 均匀 和 随机 地 将 名 字 上 映射 为 哈 希 地 址 。 也 就 是 说 ， 所 有 的 哈 希 地 址 被 映射 的 概率 均等 ， 且 相 

似 的 名 字 不 会 聚集 在 相同 的 哈 希 地 址 中 。 

某 些 哈 希 函 数 将 名 字 看 作 字 的 序列 ， 每 个 字 含 若干 个 字符 。 比 一 个 字 要 长 的 名 字 被 折 双 为 一 个 字 ， 
其 做 法 通常 是 采用 异 或 操作 ， 或 者 将 两 个 n 位 字 长 的 值 相 乘 再 取 乘 积 的 中 间 n 位 。 然 后 哈 希 值 可 由 模 mm 的 
祭 数 获得 ， 其 中 m 是 哈 希 表 所 含 条 目 数 。 注 意 ， 如 果 m 等 于 22， 那 么 该 除法 将 分 离 出 最 右边 的 b 位 。 因 此 ， 
应 当 避 免 这 样 大 小 的 表 。 

计算 哈 希 值 的 另外 一 种 办 法 是 逐个 字符 地 处 理 ， 就 像 词法 记号 扫描 那样 。 这 类 简单 的 哈 希 函数 包括 
(Ci cz+ = + Cn) mod m 或 (C1* Co* …* Ca) mod mm， 其 中 c+cz … ,Cn 是 组 成 单词 的 记号 。 此 时 还 需 采 
下 措施 以 避免 或 处 理 计算 中 出 现 的 溢出 。 UW-Pascal 编 译 器 使 用 一 个 更 简单 的 哈 希 函数 : NCC = ,Cn) 
= (c,*c,) mod m， 即 只 使 用 第 一 个 和 最 后 一 个 字符 。 尽 管 那些 使 用 单词 记号 中 所 有 字符 的 函数 能 做 得 
更 好 且 代 价 也 不 那么 昂贵 ， ATER MS RIOR LET 
解决 冲突 

因为 可 能 添加 到 符号 表 中 的 名 字 的 数量 通常 远 比 哈 希 地 址 多 ， 所 以 冲突 (collision) 在 所 难免 。 即 ， 
对 名 字 n; 和 na (ni » nz)， 有 h(n1) = h(na)。 当 这 样 的 冲突 发 生 时 ， 我 们 可 采用 以 下 多 种 冲突 处 理 技术 : 

。 线 性 解决 方法 。 

如 果 位 置 h(n) 被 占用 ， 那 么 将 尝试 (h(n)+1) mod m，(h(n)+2) mod m， 等 等 。 如 果 表 中 还 有 空闲 
位 置 ， 那 它们 最 终 将 被 找到 。 该 方法 的 主要 问题 在 于 在 填 表 时 容易 形成 较 长 的 搜索 链 。 

。 加 哈 希 的 再 哈 希 法 (Add-the-Hash Rehash ) 。 

如 果 h(n) 被 占用 ， 那 么 尝试 (2*h(n)) mod m, (3*h(n) mod m， 等 等 。 这 有 助 于 防止 较 长 的 搜索 
链 ， 但 如 果 要 尝试 所 有 的 哈 希 位 置 ， 则 m 必 须 是 素数 。 

。 二 次 再 哈 希 半 (Quadratic Rehash ) 。 

如 果 h(n) 被 占用 ， 那 么 尝试 (h(n)+1**2) mod m, (h(n)+2**2) mod m, FF. 

0 链 式 冲 突 解决 法 。 

名 字 根 本 不 在 哈 希 表 中 存放 ， 相 反 ， 表 中 存放 的 是 具有 相同 哈 希 值 的 名 字 的 记录 链表 。 哈 希 表 自 身 
只 存放 该 链表 的 表 头 。 即 ， 我 们 可 以 有 如 图 8-2 所 示 的 哈 希 表 组 织 形式 。 
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哈 希 表 名 字 的 链 式 条 目 


图 8-2 带 有 链 式 冲 突 解决 法 的 哈 希 表 


链 式 冲 突 解决 方法 有 许多 地 方 吸引 我 们 。 首 先 ， 它 减少 了 哈 希 表 自身 的 空间 开销 ， 每 个 条 目 仅 需 存 
放 一 个 指针 的 空间 。 其 次 ， 它 不 会 像 其 他 冲突 解决 方法 那样 在 所 有 哈 希 表 条 目 填 满 时 导致 灾难 性 的 失败 ， 
这 里 假定 用 于 名 字 记 录 的 空间 是 动态 分 配 的 。 实 际 上 ， 给 定 一 个 均匀 的 哈 希 函 数 ， 如 果 我 们 有 n 个 名 字 
和 一 张大 小 为 m 的 表 ， 那 么 查找 一 个 名 字 的 平均 (RWA) 时 间 正 比 于 1 + n/2m， 添 加 一 个 名 字 的 时 间 
则 正比 于 2 + n/m。 如 果 使 用 的 哈 希 表 大 小 在 50 至 100 之 间 ， 那 么 对 于 除 大 型 程序 之 外 的 其 他 所 有 程序 而 
言 ， 这 些 搜 索 和 添加 时 间 基 本 上 都 是 常量 。 即 使 名 字 的 数量 大 大 超出 表 的 大 小 ， 我 们 仍 可 以 获得 有 n/m 
个 项 目的 线性 表 的 效率 。 其 至 还 可 以 通过 将 每 条 链 组 织 为 二 又 搜索 树 而 不 是 线性 表 的 形式 来 进一步 改善 
(平均 ) 性 能 。 最 后 ， 链 式 神 突 解决 方法 使 我 们 很 容易 删除 个 别名 字 ， 而 其 他 的 哈 希 技术 却 不 行 。 由 于 
以 上 这 些 优点 ， 采 用 链 式 的 冲突 解决 方法 成 为 最 受 欢迎 的 哈 希 表 组 织 形式 。 


8.2.3 种 空间 数组 


由 于 添加 到 符号 表 里 的 串 的 长 度 变化 很 大 ， 因 而 导致 串 的 存储 效率 相当 得 低 。 特 别 地 ， 如 果 每 个 符 
号 表 条 目 包 含 一 个 名 字 域 用 来 表示 该 条 目 所 对 应 的 实际 名 字 ， 那 么 我 们 将 不 得 不 给 这 个 域 分 配 足 够 的 空 
间 以 容纳 最 长 可 能 的 串 。 如 果 人 允许 名 字 长 度 超过 8 个 或 10 个 字符 ， 那 么 将 浪费 大 量 的 空间 ， 因 为 许多 名 
字 相 对 较 短 。 

减少 这 种 浪费 的 一 种 方法 是 使 用 通常 称 为 串 空间 (string space) 的 字符 数组 来 存放 所 有 的 名 字 。 使 
用 这 种 技术 ， 我 们 将 在 串 空 间 里 存放 串 的 长 度 和 索引 以 取代 把 名 字 本 身 存放 于 符号 表 条 目 中 。 这 样 ， 如 
果 我 们 存放 长 度 k 和 索引 ， 那 么 名 字 将 实际 存放 在 串 空 间 的 位 置 |，i+1，… i+k-1， 如 图 8-3 所 未。 


| «-index-» | <4ength> | 


a) 串 空间 的 图 解 表示 





sting 
space 5 | 
example 1217 


b) 串 和 描述 符 示例 
图 8-3 一 级 串 空 间 
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任何 给 定 的 串 仅 需 在 串 空 间 中 出 现 一 次 。 在 添加 某 个 串 之 前 ,我 们 首先 计算 它 的 哈 需 值 并 在 合适 的 
哈 希 链 上 所 有 现存 条 目 中 检查 是 否 已 有 该 串 。 检 查 条 目 时 仅 需 对 那些 含有 相同 串 长 的 条 目 进行 字符 比较 ”259 
即 可 。 如 果 在 哈 希 链 上 未 发 现 该 串 ， 我 们 才 将 它 添加 到 串 空 间 的 最 左 空闲 位 置 上 。 
除非 首次 确定 某 串 不 在 串 空 间 里 ， 否 则 不 应 该 将 此 串 添 加 到 串 空 间 里 ， 通 常 是 由 符号 表 例 程 而 不 是 
词法 分 析 器 来 负责 维护 串 空 间 的 。 这 种 职责 分 配 在 具有 块 结构 的 语言 里 十 分 必要 ， 其 中 一 个 名 字 可 在 多 
个 作用 域 中 使 用 (或 定义 )。 单 独 的 作用 域 可 以 表示 在 不 同 的 符号 表 中 以 及 不 同 的 串 空间 里 ， 所 有 这 些 均 
由 符号 表 例 程 来 管理 。 如 果 词 法 扫描 、 语 法 分 析 和 语义 分 析 依次 进行 ， 那 么 通常 从 词法 分 析 器 识别 名 字 
时 ， 即 可 将 该 名 字 “ 浮 动 ” 至 串 空 间 顶 部 直到 采取 合适 的 动作 为 止 。 如 果 该 名 字 即 将 被 添加 到 串 空间 里 ， 
那么 它 可 以 呆 在 它 原来 所 在 的 地 方 ; 否则 它 将 被 删除 ， 其 占用 的 空间 可 被 再 次 使 用 。 这 种 删除 很 简单 ， 
只 要 该 名 字 仍 在 串 空 间 顶 部 即 可 ， 因 此 相应 语义 例 程 的 设计 必须 在 向 串 空间 添加 任何 其 他 串 之 前 解析 该 
名 字 的 使 用 情况 。 
如 果 串 空间 被 实现 为 固定 大 小 的 数组 ， 那 么 它 的 长 度 选 择 将 是 件 困 难 的 事情 。 如 果 选 择 得 太 小 ， 则 
在 存储 名 字 时 很 容易 造成 空间 耗 尽 。 如 果 过 大 的 话 ， 又 容易 浪费 空间 ， 而 这 一 点 正 是 我 们 在 使 用 串 空 间 
时 应 尽量 避免 的 。 无 论 如 何 ， 采 用 空间 的 动态 分 配 仍 不 失 为 一 种 有 效 的 解决 方案 。 我 们 可 将 串 空间 分 配 
为 容纳 500 或 1000 个 字符 的 空间 段 并 将 原 串 空间 索引 看 作 两 级 索引 。 特 别 地 ， 如 果 每 个 段 为 s 个 字符 长 ， 
索引 则 表示 段 (i div s) 中 的 位 置 (i mod s)。( 参 见 图 8-4 的 说 明 。) 一 般 地 ， 我 们 仅 在 当前 段 填 满 后 
才 为 新 的 段 分 配 空间 。 


| index | length selector = index div slength 
offset = index mod slength 
slength 是 每 段 的 长 度 


selector 





| «— offset — | «- length -> | 


图 8-4 分 段 的 串 空 间 


分 段 的 串 空间 受 限于 段 指针 数组 的 大 小 。 一 般 讲 来 ， 这 种 限制 并 不 是 很 严重 的 问题 例如 ， 能 容纳 
50 个 指针 的 数组 ， 每 个 指针 指向 含 1000 字 符 的 段 ， 总 计 将 提供 50K 字 符 的 串 空间 。 我 们 甚至 可 以 通过 使 
用 ( 段 指针 ， 偏 移 ， 长 度 ) 三 元 组 确定 串 而 省 去 指针 数组 来 避免 这 种 限制 。 但 此 三 元 组 在 某 种 程度 上 比 
(REL KE) 的 表示 要 大 一 些 ， 因 此 就 适中 的 串 空 间 需 求 的 平均 情况 而 言 前 者 的 代价 要 略 高 一 些 。 像 C 
语言 那样 允许 字符 指针 的 语言 可 以 使 用 (指针 ,长 度 ) 的 表示 ， 或 使 用 一 个 指针 指向 动态 分 配 的 捉 找 贝 ， | 
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选择 。 


8.3 块 结构 符号 表 


大 多 数 程序 设计 语言 沿用 Algol 60 引 入 的 概念 允许 有 名 字 作用 域 (name scope) MRE. BFF 
用 域 通常 被 定义 为 由 诸如 子 程序 、 包 或 最 初 的 基本 块 等 程序 单元 所 包围 的 程序 文本 。 自 Algol 60 以 后 [261] 
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设计 的 大 多 数 语言 中 ， 这 些 程序 单元 可 以 相互 在 其 中 定义 ， 这 就 使 得 名 字 作用 域 得 以 嵌 套 。 人 允许 名 字 
作用 域 欲 套 的 语言 有 时 也 称 为 块 结构 语言 ( block-structured language ) 。 

任意 一 行程 序 可 被 一 个 或 多 个 定义 名 字 作 用 域 的 程序 单元 所 包含 。 这 其 中 由 最 内 层 (innermost) 单 
元 定义 的 名 字 作用 域 称 为 当前 作用 域 (current scope). 由 当前 作用 域 和 任何 外 层 包围 程序 单元 所 定义 的 
名 字 作 用 域 称 为 开放 式 作 用 域 (open scope)。 而 不 包含 该 正文 行 的 程序 单元 所 定义 的 名 字 作用 域 称 为 封 
闭 式 作 用 域 (closed scope)。 根 据 这 些 定义 ， 当 前 、 开 放 式 及 封闭 式 作 用 域 都 不 是 作用 域 的 固有 属性 ; 
它们 均 是 相对 于 程序 中 某 个 特定 的 点 而 定义 的 。 

常用 的 可 见 性 规则 (visibility rule) 集合 给 出 了 在 众多 作用 域 中 出 现 的 名 字 的 解释 : 

。 在 程序 正文 中 的 任何 一 点 ， 只 能 访问 在 当前 作用 域 以 及 在 包含 它 的 开放 式 作用 域 中 声明 的 名 字 。 

。 如 果 某 个 名 字 在 不 止 一 个 开放 式 作用 域 中 声明 ,那么 离 名 字 引 用 最 近 的 最 内 层 的 声明 将 用 来 解释 

该 名 字 。 

。 只 能 在 当前 作用 域 中 进行 新 的 声明 。 
这 些 规则 的 一 个 明显 的 含义 是 ， 当 一 个 作用 域 封闭 时 ， 其 中 的 声明 就 成 为 不 可 访问 的 。 例 如 ， 和 考虑 图 
8-5 中 的 程序 片段 。 












declare 

H,A,L : Integer; 
begin 
declare 
X, Y : Real; 
begin 













end; 






declare 
A,C,M : Character; 
begin 


-— Current position in program & 


end; 


end; 


图 8-5 Bx E HIC I 


在 图 8-5 中 所 指示 的 位 置 上 ， 声 明 A (为 字符 型 )、C、H、L 和 M 均 可 见 。 而 X 和 Y 不 可 见 ， 因为 它们 
在 其 中 定义 的 作用 域 已 关闭 。 

与 子 程序 关联 的 参数 名 字 局 部 于 该 子 程序 体 。 然 而 ， 子 程序 自 身 的 名 字 却 定义 在 包含 该 子 程序 声明 
的 作用 域 中 。( 如 果 认 为 子 程序 的 名 字 局 部 于 它 的 程序 体 ， 那 么 该 子 程序 将 永 不 被 调用 ! ) 

有 两 种 常见 的 方法 可 以 实现 块 结构 符号 表 : 针对 每 个 作用 域 有 一 个 符号 表 ; 或 者 有 一 个 单一 的 全 局 
符号 表 。 | 
每 作用 域 一 个 符号 表 

如 果 为 每 个 作用 域 创 建 单独 的 符号 表 ， 则 必须 采取 某 些 措施 确保 搜索 过 程 能 找到 由 赚 套 作用 域 定义 
的 名 字 。 因 为 名 字 作用 域 是 按 后 进 先 出 的 方式 打开 和 关闭 的 ， 因 此 ， 栈 是 组 织 这 种 搜索 的 合适 手段 。 这 
样 ， 将 维护 一 个 符号 表 作 用 域 栈 (scope stack), 栈 上 每 个 条 目 对 应 一 个 开放 式 名 字 作 用 域 。 最 内 层 的 作 
用 域 位 于 栈 顶 ， 它 的 最 近 包 含 作用 域 位 于 次 栈 项， 等 等 。 当 打开 一 个 新 的 作用 域 时 ， 将 创建 一 个 新 的 符 
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号 表 并 压 人 栈 中 ; 在 关闭 一 个 作用 域 时 ， 将 弹出 栈 顶 的 符号 表 。 由 作用 域 栈 弹 出 的 作用 域 在 一 遍 编 译 器 
中 可 以 被 销 般 ， 但 在 多 遍 编译 器 中 该 作 用 域 必须 作为 定义 它 的 程序 单元 的 属性 而 被 保存 下 来 以 便 在 随后 
的 编译 阶段 用 来 查找 名 字 。 于 是 ， 对 于 图 8-5 中 的 程序 代码 ， 我 们 可 以 得 到 如 图 8-6 所 示 的 符号 表 布 局 。 





作用 域 栈 单独 的 表 


图 8-6 你 套 作用 域 的 单独 符号 表 实 现 


为 查找 名 字 ， 我 们 首先 在 栈 顶 符号 表 中 搜索 ， 然 后 再 从 次 栈 顶 查找 ， 等 等 ， 搜 索 过 程 将 持续 到 名 字 
被 找到 或 栈 被 耗 尽 为 止 。 定 义 在 图 8-7 中 的 例 程 可 配合 图 8-1 中 的 符号 表 接 口 用 来 维护 和 使 用 作用 域 栈 。 
sts_push() 和 sts_pop() 是 维护 栈 的 例 程 。sts_pPop() 返 回 从 栈 顶 取 出 的 符号 表 ， 这 样 我 们 就 可 以 根 
据 编 译 器 的 组 织 形式 决定 是 保存 还 是 销毁 那个 符号 表 。sts_current_scope( ) 是 用 来 获取 最 内 层 作用 
域 的 引用 以 便 它 在 例 程 enter ( ) 被 调用 时 可 用 。sts_find( ) 使 用 find( ) 沿 作用 域 栈 向 下 搜索 name。 


extern void sts_push(const symbol table table); 
extern symbol table sts_pop (void); 
extern symbol table sts_current_scope (void) ; 


/* 
* Search stack of tables for name; return a 

* reference to the entry corresponding to name 
* (if there is one) and a flag to indicate 

* whether the name was present. 

*/ 

extern void sts find(const string name, 
id entry *entry, 
boolean *present) ; 
















图 8-7 作用 域 栈 例 程 


使 用 这 种 作用 域 酚 方 法 的 一 个 不 是 之 处 是 ， 在 找到 一 个 名 字 之 前 我 们 可 能 需要 在 多 个 不 同 的 符号 表 
中 进行 搜索 。 例 如 ， 一 个 全 局 定义 的 名 字 要 求 搜索 栈 中 所 有 的 符号 表 。 如 此 搜索 的 代价 包括 引用 栈 中 的 
每 个 符号 表 ， 加 上 引用 每 个 表 中 的 每 一 个 条 目 ， 再 加 上 搜索 每 一 个 相关 的 链 。 这 种 栈 搜索 的 代价 因 程序 
而 异 ， 主 要 取决 于 程序 中 非 乌 部 名 字 引 用 的 数量 和 开放 式 作 用 域 的 幅 套 深度 。 

在 采用 哈 希 表 的 实现 时 出 现 的 另 一 个 问题 要 归于 为 每 个 作用 域 分 配 存放 哈 希 表 的 存储 块 的 大 小 。 如 
果 每 张 表 太 大 ， 则 会 因为 多 数 作用 域 仅 包含 了 少量 名 字 的 定义 而 造成 大 量 的 空间 浪费 。 如 果 表 太 小 ， 则 
在 像 最 外 层 作 用 域 那样 包含 较 多 名 字 定 义 的 作用 域 中 搜索 标识 符 时 ， 速 度 会 因为 链 太 长 而 减 慢 。 在 内 层 
作用 域 中 维护 一 张 较 小 的 表 是 可 能 的 (尽管 会 更 为 复杂 )， 因 为 那里 往往 不 大 可 能 出 现 大 量 的 声明 。 当 
然 ， 在 采用 二 又 搜索 树 的 实现 时 不 存在 这 种 问题 ， 因 为 每 棵 二 又 树 没 有 固定 的 开销 。 
单一 符号 表 | 

使 用 单一 符号 表 时 ， 所 有 手套 作用 域 中 的 所 有 名 字 均 出 现在 单独 一 张 表 中 。 每 个 名 字 作用 域 被 赋 于 
一 个 惟一 的 作用 域 号 (scope number)。 名 字 可 以 在 这 张 符号 表 中 出 现 多 次 ， 只 要 每 次 重复 的 出 现 有 不 同 
的 作用 域 号 即 可 。 图 8-8a 显 示 了 为 图 8-5 中 的 程序 所 构造 的 采用 单个 哈 希 表 的 一 种 可 能 的 全 局 符号 表 结 
Kj; 图 8-8b 显 示 了 相应 的 二 又 搜索 树 。 
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WEE ”名 字 的 链 式 条 目 ( 带 作用 域 号 ) 
| a) 哈 希 表 实 现 





b) 二 又 树 实现 


图 8-8 嵌 套 作用 域 的 全 局 实现 


使 用 图 8-8a 中 的 哈 希 表 实 现 ， 新 的 名 字 将 被 添加 到 链 的 前 端 。 此 时 名 字 搜 索 很 容易 ， 在 合适 的 哈 希 
链 上 目标 名 字 的 首次 出 现 即 为 所 需 条 目 。 在 作用 域 被 关闭 时 ， 所 有 和 这 个 正 被 关闭 的 作用 域 有 相同 作用 
域 号 的 条 目 将 被 从 每 一 条 链 中 删除 。 此 时 ， 在 每 条 链 上 不 需要 检查 在 第 一 个 作用 域 号 不 匹配 的 条 目 之 后 
的 那些 条 目 。 

由 图 8-8b 可 看 出 ， 由 单个 二 又 树 实现 的 多 个 作用 域 其 运作 不 如 哈 希 表 那 样 方便 。 因 为 二 又 树 上 的 插 
入 操作 要 在 叶 结 点 处 完成 ， 一 个 名 字 的 搜索 在 第 一 次 匹配 后 必须 继续 朝 叶 结 点 方向 进行 并 返回 最 后 一 次 
所 发 现 的 匹配 条 上 日。 类似 地 ， 当 作用 域 被 关闭 时 ， 要 对 整 棵 树 进行 遍历 并 删除 那些 和 正 被 关闭 的 作用 域 
有 相同 作用 域 号 的 叶 结 点 和 子 树 。 

如 果 要 实现 单一 的 全 局 符号 表 ， 我 们 可 以 通过 把 类 型 symbol_table 实 现 为 作用 域 号 而 将 作用 域 概 
念 合并 到 符号 表 的 接口 中 ， 而 此 举 几 平 不 需要 更 改 该 接口 。 然 后 ，create( ) 操 作 只 是 简单 地 返回 一 个 
作用 域 号 ，destroy( ) 则 删除 标记 有 那个 作用 域 号 的 所 有 条 目 。 惟 一 要 做 修改 的 是 find( ) 的 接口 ， 它 
的 参数 table 将 被 删除 。 

作为 选择 ， 我 们 可 以 向 我 们 的 “ 包 ” 中 添加 open_ scope( ) 和 close_scope( ) 操 作 ; 其 中 每 一 个 
操作 都 将 以 一 个 符号 表 为 参数 并 内 部 处 理 作 用 域 号 。 这 后 一 种 方法 的 优点 是 ， 我 们 的 符号 表 接口 可 以 保 
持 足 够 的 一 般 性 以 支持 多 个 作用 域 有 多 个 符号 表 的 情况 。 

使 用 哈 希 表 的 全 局 符号 表 的 方法 在 某 种 程度 上 比 每 个 作用 域 一 张 表 的 方法 更 难于 实现 ， 但 由 于 它 搜 
索 的 仅 是 一 张 表 ， 因 此 也 就 提供 了 较 快 的 搜索 速度 。 此 外 ， 它 还 能 更 有 效 地 利用 空间 ， 因 为 它 仅 有 一 张 
表 头 而 非 每 个 作用 域 一 个 。 尽 管 如 此 ， 此 方法 中 为 每 个 条 目 添 加 作用 域 号 所 需 的 额外 空间 将 部 分 抵消 这 
些 节省 的 空间 。 

采用 二 又 树 实现 的 全 局 符号 表 方 法 并 不 吸引 人 。 因为 在 内 层 作用 域 中 搜索 名 字 将 花费 更 长 的 时 间 。 
在 到 达 内 层 作 用 域 的 条 目 时 必须 先行 遍历 与 外 层 作 用 域 对 应 的 树 。 关 闭 一 个 作用 域 的 代价 也 很 昂贵 ， 因 
为 需要 遍历 整 棵 树 以 寻找 要 删除 的 条 目 。 此 外 ， 也 没有 空间 节省 来 补偿 存储 作用 域 号 所 需 的 额外 空间 。 
简 言 之 ， 我 们 不 推荐 使 用 二 又 搜索 树 来 实现 单一 的 全 局 符号 表 。 

在 早期 的 编译 器 中 (在 动态 存储 管理 普及 之 前 )， 使 用 了 这 种 单一 符号 表 的 一 种 变形 。 在 此 变形 中 ， 
由 于 所 有 新 的 定义 必须 在 最 内 层 作 用 域 中 做 出 ， 因 此 栈 被 用 来 容纳 符号 表 的 定义 。 在 一 个 作用 域 中 做 出 
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的 所 有 定义 (在 栈 中 ) 均 相 连 ， 且 最 内 层 中 的 定义 位 于 此 栈 的 顶部 。 对 每 个 作用 域 都 将 保持 一 个 “高 水 
位 ”标记 ， 这 样 在 关闭 一 个 嵌 套 作用 域 时 ， 栈 就 可 以 清 退 到 那个 标记 位 置 。 

在 此 变形 中 可 使 用 多 种 搜索 技术 ,但 由 于 动态 数据 结构 的 广泛 使 用 ( 链 式 冲突 解决 法 或 二 又 搜索 树 )， 
它 在 现代 编译 器 中 已 不 常用 。 然 而 有 一 点 却 保留 了 下 来 。 给 定 作用 域 中 所 有 添 入 串 空 间 的 名 字 均 是 相连 
的 ， 因 此 可 以 使 用 类 似 的 方法 在 作用 域 关 闭 时 回收 被 作用 域 占 用 的 串 空间 。 (无 论 将 符号 表 实 现 为 多 个 
单独 的 表 还 是 一 个 全 局 表 ， 都 可 使 用 此 项 技术 。) 

单一 符号 表 方 法 真正 最 适用 的 地 方 是 一 遍 编译 器 ， 在 那里 所 有 关于 作用 域 的 信息 在 编译 器 到 达 那 个 
作用 域 未 端 时 都 将 被 抛弃 。 典 型 地 ， 多 遍 编 译 器 在 某 一 遍 中 建立 符号 表 ， 而 在 后 续 的 某 遍 或 多 遍 处 理 中 
使 用 该 符 号 表 。 如 果 当 作用 域 关 闭 时 不 删除 条 目 ， 那 么 单一 全 局 符号 表 的 实现 就 变 得 非常 复杂 且 带 在 地 
效率 低下 。 因 此 ， 多 遍 编 译 器 通常 为 每 一 个 作用 域 均 采 用 单独 的 符号 玫 。 


8.4 块 结构 符号 表 的 扩展 


由 Algol 60 引 入 并 于 前 面 章节 描述 的 块 结构 名 字 作 用 域 规则 构成 了 大 多 数 现代 程序 设计 语言 的 基本 
作用 域 规则 。 然 而 ， 多 数 语言 以 各 种 方式 扩展 了 这 些 标准 的 作用 域 规则 ， 且 这 些 扩展 对 符号 表 的 设计 有 
着 显著 的 影响 。 | | 

在 本 章 的 剩余 部 分 ， 我 们 要 考虑 诸如 控制 名 字 的 可 见 性 、 改 变 搜索 规则 和 允许 一 个 作用 域 中 名 字 的 
多 重 使 用 等 语言 特性 将 如 何 影响 符号 表 的 结构 。 我 们 也 将 考虑 隐 式 声明 和 在 定义 前 引用 名 字 等 语言 特性 
所 带 来 的 影响 。 

对 标准 名 字 作 用 域 的 扩展 可 分 为 两 类 : 其 中 一 类 扩展 改变 个 别名 字 或 名 字 集 合 的 可 见 性 ， 而 另 一 类 
则 改变 搜索 规则 。 我 们 将 考察 代表 这 两 类 扩展 的 语言 特性 的 处 理 技术 。 标 准 的 名 字 可 见 性 规则 指出 与 名 
字 引 用 关联 的 定义 可 能 是 包含 该 引用 的 最 内 晨 作 用 域 中 的 那个 定义 。 然 而 ， 并 非 所 有 的 名 字 都 遵守 这 个 
规则 。 例 如 ， 记 录 域 的 名 字 通 常 仅 当 它们 由 记录 名 限定 〈qualified) 时 才 可 见 。 更 重要 的 是 ， 现 代 程 序 
设计 语言 常常 允许 显 式 地 控制 非 局 部 名 字 的 可 见 性 。 这 样 的 控制 又 可 以 划分 为 导入 规则 〈import rule) 
和 导出 规则 (export rule )。 最 后 ， 像 Pascal 语 言 中 的 with 语 名 构造 和 Ada 语 言 中 的 Use 子 句 均 实际 带 来 新 
的 搜索 规则 。 

对 于 大 多 数 扩展 ， 均 可 采取 以 下 两 种 方法 中 的 任何 一 种 来 实现 。 一 种 方法 是 复制 那些 通常 在 最 内 层 
名 字 作 用 域 中 可 以 访问 但 可 能 在 常规 搜索 过 程 中 不 被 发 现 的 符号 表 条 目 。 这 种 方法 的 实现 通常 相当 简单 
且 能 加 快 搜索 速度 。 然 而 ， 它 却 容易 带 来 显著 的 空间 开销 ， 尤 其 是 在 必须 拷贝 大 量 条 目的 时 候 。 

另 一 种 方法 则 试图 避免 条 目的 拷贝 并 调整 有 关 标 志和 符号 表 链 接 以 便 符号 表 结 点 在 使 用 常规 搜索 方 
法 时 可 见 或 不 可 见 。 这 种 方法 通常 更 复杂 且 有 时 更 慢 ， 但 它 却 可 能 减少 总 体 空间 开销 。Graham 等 
(1979) 给 出 有 关 这 些 方法 很 好 的 全 面 讨论 。 | 


8.4.1 域 和 记录 


在 C、Pascal 和 Ada 语 言 中 ， 域 名 仅 需 在 其 所 声明 的 记录 中 保持 惟一 即 可 。 尽管 它们 在 包含 记录 声明 
的 作用 域 中 可 见 ， 它们 也 无 须 和 声明 在 相同 作用 域 中 的 其 他 记录 的 域名 或 其 他 局 部 和 非 局 部 名 字 不 同 。 
因此 ， 我 们 必须 能 处 理 像 以 下 Pascal 程 序 示例 中 的 声明 : 
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这 些 关 于 域名 的 规则 是 我 们 想 要 的 ， 因 为 它们 使 程序 员 不 必 担 心 在 不 同 的 记录 中 的 域名 重复 ， 如 此 
也 就 简化 了 程序 员 的 工作 而 且 增 强 了 程序 的 可 读 性 (与 那些 要 求 在 同一 作用 域 中 域名 必须 惟一 的 语言 相 
比 )。 每 个 域 可 以 根据 它 的 用 途 取 合适 的 名 字 ， 即 使 另 一 个 记录 有 相同 名 字 的 域 也 没有 关系 。 例 如 ，C 语 
言 的 最 初 定 义 就 要 求 这 样 的 惟一 性 ， 强 迫 程 序 员 采 纳 有 关 的 命名 约定 ， 诸 如 : 


struct recl { int rl contents; struct reci *ri next; ): 
struct rec2 ( char *r2 contents; struct rec2 *r2 next; ); 


此 例 中 的 前 组 rl_ 和 r2_ 是 用 来 确定 惟一 的 域名 ， 因 为 两 个 记录 不 允许 有 相同 的 域名 contents 和 next。 这 
倒 使 得 实现 相对 简单 ， 一 个 符号 表 用 于 结构 域 ， 另 一 个 符号 表 则 用 于 别 的 名 字 。 

在 Pascal 和 Ada 语 言 里 ， 拥 有 相同 名 字 的 多 个 记录 域 绝 不 会 导致 二 义 性 ， 因 为 对 记录 成 员 的 引用 必 
须 总 是 完整 地 指定 一 一 例如 ，R.A 或 R.X.A。 在 PL/I 和 COBOL 语 言 里 ,，( 域 名 ) 引用 的 中 间 部 分 可 以 删除 。 
在 这 两 个 语言 中 ， 例 如 ，R.C (表示 R.X.C) 是 合法 的 引用 ,但 这 要 求 更 加 细致 的 算法 以 检测 二 义 性 并 
解析 非 二 义 的 缩写 形式 。 

域名 的 处 理 有 两 种 选择 。 第 一 种 方法 是 为 每 个 记录 类 型 分 配 一 张 符号 表 。 那 个 符号 表 不 出 现在 作用 
域 栈 上 而 是 作为 记录 类 型 的 属性 。Pascal P- 编 译 器 就 是 这 么 做 的 ， 其 中 每 个 记录 类 型 均 有 包含 域名 的 二 
叉 树 。 当 编译 器 处 理 像 R.A 那样 的 引用 时 ， 它 首先 根据 常规 搜索 规则 发 现 R 并 返回 存放 R 类 型 信息 的 符号 
表 引 用 。 然 后 它 以 那个 符号 表 和 A 为 参数 来 调用 find( ) 例 程 。 这 种 方法 因为 不 对 符号 表 接口 做 任何 改变 
所 以 很 容易 实现 ， 但 如 果 采 用 哈 希 表 实 现 ， 它 的 空间 需求 将 是 很 昂贵 的 。 这 种 方法 一 般 很 适合 于 二 叉 树 
实现 ， 因 为 在 记录 中 域 的 数量 通常 不 是 很 多 。 

另 一 种 方法 将 域名 看 作 普 通 的 标识 符 并 把 它们 和 当前 作用 域 中 其 他 名 字 一 起 存放 在 符号 表 中 。 每 个 
记录 于 是 被 分 配 一 个 惟一 的 记录 号 (record number)。 此 记录 号 可 由 一 个 计数 器 产生 ， 或 是 记录 可 能 使 
用 的 符号 表 条 目的 地 址 。 将 记录 号 与 所 有 的 域名 相关 联 ， 那 么 即使 相同 的 域名 可 以 在 多 个 记录 中 使 用 ， 
编译 器 也 能 够 判定 记录 域 归属 哪个 记录 。 非 记录 域 的 名 字 可 认为 有 一 个 为 零 的 记录 号 。 为 解释 像 R.A 那 
样 的 引用 ， 编 译 器 同 以 前 一 样 ， 首 先 在 符号 表 中 找到 R 并 查证 它 是 否 为 记录 类 型 。 为 了 说 明 ， 设 它 的 记 
录 号 为 kK。 然 后 ， 编 译 器 在 符号 表 中 查找 是 记录 域 且 记录 号 为 k 的 A 的 声明 。 此 过 程 对 于 像 R.X.A 那 样 复 
杂 的 表达 式 可 能 要 重复 多 次 。 当 编译 器 在 符号 表 中 查找 的 是 普通 变量 ， 如 A 而 非 R.A 时 ， 它 使 用 的 记录 
号 为 零 旦 忽略 所 有 是 域名 的 条 目 。 

要 使 用 这 种 方法 来 处 理 记 录 域 ， 必 须 修改 符号 表 接 口 ， 在 enter() 和 find( ) 等 例 程 的 参数 表 中 添 
加 记录 号 参数 : 


extern void enter (symbol table table, 
const string name, 
const int record num, 
id entry *entry, 
boolean *present); 


extern void find(const symbol table table, 
const string name, 
const int record num, 
id entry *entry, 
boolean *present) ; 


8.4.2 导出 规则 


导出 规则 允许 程序 员 指定 局 部 于 某 个 作用 域 的 某 些 名 字 在 那个 作用 域 之 外 仍 可 见 。 这 种 有 选择 的 可 
见 性 可 与 通常 的 块 结构 作用 域 相 比较 ， 后 者 规定 局 部 于 某 个 作用 域 的 名 字 在 那个 作用 域 之 外 不 可 见 ; 与 
前 面 讨论 的 记录 域 规则 相 比 较 ， 后 者 通过 合适 的 限定 修饰 使 定义 在 记录 中 的 所 有 名 字 可 见 。 输 出 规则 通 
常 和 语言 中 将 相关 定义 封装 在 一 起 的 模块 化 特性 相 联 系 ， 诸 如 Ada 的 “ 包 ”(package)、Modula-2 的 “ 模 
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Jk" (module) 和 C++ 的 “类 ”(class)。 模 块 或 包 常 常 既定 义 了 一 种 数据 结构 又 定义 了 在 那个 数据 结构 
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MODULE IntegerStack; 

EXPORT Push, Pop; 

CONST StackMax = 100; 

VAR Stack : ARRAY [1..StackMax] OF Integer; 
Top : 1..StackMax; 


PROCEDURE Push(l:Integer); 
BEGIN --- END 
PROCEDURE Pop : integer: 
BEGIN --- END: 


BEGIN 
Top :=1 
END integerStack; 
在 模块 IntegerStack 外 ， 过 程 Push 和 Pop 可 见 ， 而 其 他 所 有 局 部 于 该 模块 的 定义 均 被 隐藏 起 来 。 特 
别 地 ， 这 种 栈 的 实现 不 能 从 模块 外 访问 。 导 出 规则 的 目的 不 是 简化 编译 处 理 ， 而 是 将 程序 单元 中 相关 的 
定义 很 容易 地 组 装 在 一 起 并 有 选择 地 访问 那些 定义 。 
为 正确 处 理 导出 规则 ， 我 们 必须 在 退出 作用 域 时 确保 所 导出 的 名 字 可 见 ， 就 好 像 它们 是 在 外 野 作用 
域 中 声明 的 一 样 。 我 们 可 以 标识 导出 的 名 字 并 在 作用 域 关 闭 时 将 它们 移 至 临近 的 外 层 作用 域 ， 在 移出 后 
要 确保 删除 那些 导出 标志 。 在 Modula-2 程 序 中 ， 导 出 符号 必须 在 新 作用 域 的 一 开始 的 地 方 就 列 出 ， 因 此 ， 
在 关闭 作用 域 时 我 们 很 容易 定位 它们 。 使 用 带 有 和 链 式 冲 突 解决 的 哈 希 表 来 实现 符号 表 时 ， 根 据 使 用 的 是 
单个 表 还 是 多 张 表 ， 可 将 所 有 的 外 部 符号 连续 地 存放 在 链 的 尾部 或 直接 放 在 属于 临近 外 层 作 用 域 的 符号 
的 前 面 。 如 果 采 用 带 有 每 作用 域 一 裸 树 的 二 又 树 实现 ， 可 在 临近 树 根 的 地 方 发 现 所 有 的 导出 符号 。 
为 处 理 导出 符号 列表 ， 对 符号 表 接口 所 做 的 最 基本 修改 是 ， 必 须 在 例 程 enter( ) 的 参数 表 中 添加 额 
外 的 参数 exported。 该 参数 是 一 个 布尔 值 ， 用 来 标记 正 被 添加 到 符号 表 的 名 字 name 是 否 在 包围 当前 作 
用 域 的 外 层 作 用 域 中 可 见 。 我 们 更 关注 的 是 作用 域 被 关闭 时 ， 如 何 实际 导出 符号 表 条 目 。 如 果 符 号 表 接 
口 包括 open_scope( ) 和 close_scope( 操作， 那么 我 们 将 内 部 处 理 作 用 域 ， 且 可 像 前 面 描述 的 那样 导 
出 条 目 ， 而 无 需 修 改 符号 表 接 口 。 如 果 作 用 域 表 示 为 单独 的 符号 表 且 作用 域 栈 是 在 符号 表 例 程 之 外 处 理 
的 ， 那 么 我 们 必须 为 符号 表 接口 添加 新 的 操作 : 


extern void export (const symbol table from, 
symbol table to) ; 


export () 必须 在 from 所 指示 symbol_table 中 搜寻 所 有 的 导出 条 昌 并 将 它们 移 至 由 to 所 指示 的 符号 表 中 。 

Ada 语 言 的 “程序 包 ” 语 法 面向 大 型 程序 支持 。 包 的 定义 分 为 两 部 分 ， 首 先是 规范 部 分 
(specification part)， 它 定义 了 由 包 导 出 的 名 字 ; 其 次 是 包 主 体 (package body), 其 中 隐藏 了 所 有 声明 并 
给 出 在 规范 部 分 声明 的 过 程 的 程序 体 。 RET Modula- ERAS Ada FUCA ESS I? 270 


package IntegerStack i is 
procedure Push(l:Integer); 
function Pop return Integer; 
end IntegerStack; 


package body IntegerStack is 
StackMax : constant Integer := 100; 

— Stack : array (1..StackMax) of integer; 
Top : Integer range t..StackMax; 


procedure Push(i:integer) is 
end; 


tunction Pop return integer is 
begin --- end; 


begin 
Top := 1; 
end integerStack; 
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这 里 没有 任何 显 式 的 导出 列表 ; 在 包 规范 部 分 的 声明 在 包 外 部 可 见 。 因 此 ，Push 和 Pop 由 Ada 的 程 
序 包 IntegerStack 导 出 。 在 Ada 语 言 中 ， 导 出 的 对 象 不 能 自动 地 导入 到 其 他 程序 单元 。 相 反 地 ， 它 们 可 

以 通过 在 其 前 面 加 上 程序 包 标识 符 的 限定 (例如 ，IntegerStack.Push) 来 访问 ， 或 借助 use 子 句 导 人 它 
们 来 进行 访问 。 | | 

如 果 使 用 的 是 每 作用 域 一 张 表 的 方法 ， 我 们 将 把 程序 包 中 所 有 的 可 见 声 明 放 在 该 程序 包 的 符号 表 里 
并 借助 程序 包 名 来 访问 它们 。 对 于 单独 编译 的 程序 包 ， 将 有 一 个 库 条 目 包含 这 张 表 的 内 容 。 如 果 使 用 的 
是 单个 表 的 方法 ， 我 们 将 在 每 条 哈 希 链 上 添加 一 个 特殊 的 搜索 终止 标记 。 该 标记 终止 沿 哈 希 链 的 普通 搜 
索 。 当 处 理 程序 包 的 规范 时 ， 它 的 局 部 声明 将 放置 在 该 标记 的 后 面 ， 这 使 它们 不 可 见 。 当 编译 程序 包 主 
体 时 ， 它 们 被 移 到 标记 的 前 面 并 在 包 体 处 理 后 返回 。 正 如 我 们 稍 后 所 讨论 的 ， 选 择 性 的 访问 和 use 子 句 
方法 将 超越 这 个 搜索 终止 标记 进行 搜索 以 发 现 程序 包 的 声明 。 

Modula-2 语 言 也 允许 将 模块 划分 成 类 似 的 部 分 ， 如 下 例 所 示 : 


DEFINITION MODULE IntegerStack; 
EXPORT QUALIFIED Push, Pop; 
PROCEDURE Push(l:Integer); 
PROCEDURE Pop : Integer; 

END integerStack. 

IMPLEMENTATION MODULE IntegerStack; 
CONST StackMax - 100; 
VAR Stack : ARRAY [1. StackMax] OF Integer; 

Top : 1..StackMax; 


PROCEDURE Push(i:Integer); 
BEGIN --- END; 
PROCEDURE Pop : Integer; 
BEGIN END; 
BEGIN 
Top := 1 
END IntegerStack. 
我 们 注意 到 ， 在 Modula-2 定 义 模块 中 的 导出 列表 包括 了 关键 字 QUALIFIED 。 当 模块 被 分 成 两 部 分 时 修 


“ 饰 符 是 必需 的 ; 否则 它 是 可 选 的 。 受 限定 的 导出 必须 以 模块 名 为 前 绥 来 访问 。 在 此 例 中 ， 我 们 必须 使 用 


IntegerStack.Push 和 IntegerStack.Pop 来 引用 导出 的 过 程 名 。 Ada 语 言 所 有 的 导出 标识 符 可 以 选择 使 用 . 
程序 包 名 或 使 用 use 子 句 来 导入 。 我 们 可 以 使 用 前 面 我 们 所 开发 的 用 来 引用 记录 域 的 技术 来 处 理 受 限定 
的 导出 名 字 。 | 
单独 编译 
“” 当 程序 包 或 模块 声明 用 作 单 独 编译 的 程序 单元 时 ， 整 个 程序 可 以 从 这 些 单独 编译 的 部 分 构造 得 到 。 
当 程 序 包 规 范 或 定义 模块 被 编译 时 ， 编 译 器 将 有 关 导 出 声明 的 信息 保存 在 一 个 库 《library) 中 。( 这 里 所 
说 的 库 ， 简 单 地 讲 就 是 一 个 存放 单独 编译 单元 的 信息 的 场所 。 ) 保存 在 库 中 的 信息 可 使 编译 器 在 编译 相 
应 的 程序 包 体 或 实现 模块 时 以 及 在 编译 从 此 单元 导入 声明 的 其 他 单元 时 能 够 为 这 个 单独 编译 的 声明 建立 
符号 表 。 这 样 ， 即 便 使 用 单独 编译 ， 这 种 库 也 使 得 进行 完整 的 编译 时 静态 检查 成 为 可 能 。 

每 作用 域 一 张 表 的 符号 表 组 织 形式 最 适合 于 实现 包含 单独 编译 特性 的 语言 ， 如 Ada 和 Modula-2。 信 
自 库 可 以 包含 单独 编译 单元 符号 表 的 符号 化 表示 ( 如， 正文) 或 内 存 映 象 表示 。 如 果 这 样 的 单元 在 编译 
其 他 单元 时 被 引用 ， 此 库 中 条 目 可 用 来 重新 构造 它 的 符号 表 ， 使 它 包含 的 所 有 信息 均 成 为 可 访问 的 ， 就 
好 像 它 正 和 其 他 单元 一 起 被 编译 一 样 。 

像 C 那 样 不 依赖 编译 器 已 知 的 信息 库 的 语言 ， 将 使 用 别 的 方法 进行 单独 编译 。 在 其 他 单元 中 已 编译 
对 象 的 描述 可 以 通过 使 用 特殊 的 编译 器 指令 (如 ，C 语 言 中 的 #include ) 以 源 语言 形式 被 包含 进 某 个 编 
译 单元 。 处 理 这 些 声 明 将 建立 合适 的 符号 表 条 目 ， 但 这 远 不 如 装 入 一 个 先前 已 建 好 的 符号 表 高 效 。 此 外 ， 
还 无 法 保证 包含 进来 的 声明 与 这 些 被 导入 对 象 在 定义 它们 的 模块 中 的 声明 相 匹 配 。 
隐藏 类 型 表示 

Ada 和 Modula-2 语 言 均 提供 使 用 程序 包 和 模块 来 定义 类 型 的 语言 特性 ， 而 类 型 的 实际 实现 却 被 隐藏 
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起 来 。 这 样 ， 我 们 可 能 导出 一 个 栈 类 型 ， 接 着 再 创建 任意 数量 的 栈 一 一 相 比 之 下 ， 此 前 的 例子 中 仅 允许 
创建 单个 栈 。 然 后 可 以 通过 所 提供 的 操作 来 访问 并 操控 这 些 栈 的 实例 。 这 样 的 栈 类 型 被 称 为 抽象 数据 类 
型 (abstract data type)。Ada 和 Modula-2 语 言 中 提供 此 能 力 的 语言 特性 可 参见 图 8-9a 和 图 8-9%b 的 示例 。 
Modula-2 只 人 允许 指针 类 型 被 隐藏 ， 因 此 ， 编 译 器 将 自动 获悉 此 种 类 型 的 大 小 。 在 Ada 语 言 里 ， 程 序 包 规 
范 的 私有 部 分 (private part) 中 私有 类 型 的 定义 提供 了 必要 的 由 程序 员 定义 的 任意 类 型 的 大 小 信息 ， 而 
这 些 信 息 对 程序 的 其 他 部 分 不 可 见 。 


这 些 示例 中 有 趣 的 是 ， 在 Ada 语 言 中 使 用 了 type Stack is private ， 而 在 Modula-2 语 言 中 则 使 用 的 


是 TYPE Stack。Stack 在 Ada 中 称 为 私有 类 型 ， 而 在 Modula-2 中 称 作 不 透明 的 类 型 。 在 这 两 种 情况 下 ， 
导出 的 只 有 名 字 Stack， 而 有 关 它 的 实现 细节 则 不 可 用 。 如 此 一 来 ， 在 包 体外 面 将 不 能 访问 此 Ada 实 现 中 
的 记录 域名 。 在 两 个 语言 中 ， 不 需要 看 见 包 主体 或 模块 体 ， 编 译 器 就 已 获得 足够 信息 从 而 知晓 这 些 隐藏 
类 型 大 小 。 这 些 信息 足以 用 来 编译 使 用 这 些 类 型 的 模块 。 这 些 语 言 特性 对 符号 表 惟 一 影响 是 它们 对 导出 
的 信息 所 施加 的 约束 。 而 这 些 情况 并 不 需要 什么 新 的 技术 来 处 理 。 

























package IntegerStack ， is 
type Stack is private 
procedure Initialize (S: in out Stack); 
procedure Push(t:Integer; S : in out Stack); 
procedure Pop(i: out Integer; S : in out Stack); 
private 
StackMax : constant Integer := 100; 
type Stack is record 
Stack : array (1..StackMax) of Integer; 
Top : Integer range 1..StackMax; 
end record; 
end integerStack; 





package body IntegerStack is 





procedure initialize (S : in out Stack) is 


begin --- end; 
procedure Pus Integer; S : in out Stack) is 
begin r. 
procedure Pont out integer; S : in out Stack) is 
begin :.. end; 


end IntegerStack; 
a) 在 Ada 语 言 中 


DEFINITION MODULE IntegerStack; 
EXPORT QUALIFIED Stack, initialize, Push, Pop; 
TYPE Stack; 

PROCEDURE Initialize (VAR S:Stack); 

PROCEDURE Pushil:integer; VAR S:Stack); 

PROCEDURE Pop(VAR S:Stack):integer: 
END IntegerStack. 


IMPLEMENTATION MODULE IntegerStack; 
TYPE 
StackEntry - RECORD 
Value : Integer: 
Next : Stack 


END; 
Stack = TO StackEntry; 
PROCEDURE initialize (VAR S:Stack); 
BEGIN - 






END; 
PROCEDURE Pus Integer; VAR S:Stack); 
BEGI END; 
PROCEDURE FopIVAR S SD). Integer; 
- END 
END imtegerStack 


b) 在 Moduia-2 语 言 


图 8-9 integer Stack 作 为 一 种 抽象 数据 类 型 
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TH 


8.4.3 导入 规则 


在 强制 使 用 导入 规则 的 语言 里 ， 作 用 域 可 分 类 为 导入 型 或 非 导 入 型 两 种 。( 术语 开放 和 封闭 有 时 用 
来 取代 导入 型 和 非 导 入 型 ; 我 们 选择 后 面 这 一 对 以 避免 和 本 章 前 面 介绍 的 开放 式 与 封闭 式 作用 域 定义 有 
FE fo REIR.) 导入 型 作用 域 自 动 地 接收 对 外 层 包 围 作 用 域 的 定义 的 访问 。 在 Algol 60 和 Pascal 语 言 里 ， 
所 有 的 作用 域 均 为 导 人 型 作用 域 。 | 

在 非 导 入 型 作用 域 里 ， 对 某 些 或 全 部 非 局 部 名 字 的 访问 要 求 必须 有 显 式 的 导入 声明 。Modula-2 中 的 
模块 是 非 导 入 型 作用 域 。 只 有 那些 标准 的 预定 义 的 标识 符 能 够 被 自动 地 导入 且 无 需 在 导入 列表 中 列 出 。 
它们 被 称 为 有 渗 遗 力 的 (pervasive )。 

在 某 些 语言 里 ， 非 局 部 对 象 在 导 和 人 时 可 带 有 约束 条 件 ， 如 只 读 型 对 象 就 意味 着 它 在 导 人 作用 域 中 不 
能 被 修改 。 对 象 必须 在 非 导入 型 作用 域 间 逐 层 导入 ， 且 在 导入 时 绝 不 会 比 在 原先 的 作用 域 中 拥有 更 多 的 
特权 。 也 就 是 说 ， 一 旦 变量 作为 只 读 变量 被 导 和 人 ， 它 也 只 能 作为 只 读 变量 被 导 和 人 到 内 层 作 用 域 。 

C++ 语言 有 令 人 感 兴趣 的 作用 域 概念 ， 它 提供 了 三 种 类 成 员 的 可 见 性 规则 : private. protected 
和 public。 任 何人 都 可 以 访问 类 的 public 成 员 ， 这 里 通常 包括 类 的 大 多 数 或 全 部 例 程 。 子 类 可 以 访问 
父 类 的 public 和 protected 成 员 。 类 自身 的 实例 可 以 访问 所 有 三 种 类 成 员 。 另 有 friend 邱 数 ， 它 古 一 
个 非 类 成 员 的 函数 但 却 可 以 访问 类 的 所 有 成 员 ， 即 使 是 private 的 成 员 。 

作为 导入 规则 应 用 的 示例 ， 可 以 考虑 以 下 的 模块 。 它 是 另 一 种 栈 揭 实 例 ， 但 这 一 次 栈 的 元 素 类 型 
Thing MS Et 6L BEHR Sj ALB. Bl Aj Modula-2EALEdE SE A HERR 因此 需要 使 用 IMPORT 使 
Thing 的 使 用 合法 化 。 

MODULE ThingStack; 

EXPORT Push, Pop; 

IMPORT Thing: 

CONST StackMax = 100; 


VAR Stack : ARRAY [1..StackMax] OF Thing; 
Top : 1..StackMax; 


PROCEDURE Push(I:Thing); 
BEGIN - ND; 

PROCEDURE Pop : Thing; 
BEGIN - ND; 


BEGIN 
Top := 1 
END ThingStack; 


显 式 的 导入 规则 的 上 且 的 是 更 准确 地 控制 诸如 子 程序 和 模块 等 主要 程序 单元 的 接口 。 它 们 意 在 增强 这 
些 程序 单元 的 可 读 性 和 可 靠 性 。 

为 实现 导入 规则 ， 我 们 必须 首先 改变 原先 标准 的 搜索 机 制 以 便 所 有 名 字 或 某 些 种 类 对 象 的 名 字 《 通 
常 是 变量 ) 在 穿越 非 导 入 作用 域 边 界 时 不 能 被 自动 地 引用 。 这 很 容易 做 到 。 我 们 已 经 记录 了 一 个 定义 所 
局 的 作用 域 ， 因 此 当 遇 到 那些 非 导入 型 作用 域 时 ， 我 们 可 以 使 该 定义 成 为 不 可 访问 的 。 根 据 作用 域 实现 
方式 ， 我 们 通过 为 create( ) 和 open_scope() 等 符号 表 例 程 添加 有 关 参 数 而 将 每 个 作用 域 标记 为 导入 
型 的 或 非 导 入 型 的 。 在 搜索 完成 时 ， 我 们 将 查看 所 发 现 的 对 象 是否 具 有 渗透 力 ( 或 自动 被 导入 )。 如 果 
它 不 是 ， 且 它 是 在 最 内 的 非 导 入 型 作用 域 的 外 围 作用 域 中 被 发 现 的 ， 则 搜索 的 结果 就 如 同 此 标识 符 不 曾 
出 现在 符号 表 中 一 样 。 

为 实现 导入 语句 ， 我 们 简单 地 在 当前 作用 域 中 创建 与 导入 名 字 对 应 的 条 目 。 通 过 添加 如 下 单个 过 程 
我 们 可 以 扩展 到 符号 表 的 接口 以 支持 导入 操作 : 

/* 


* Import name into table; return a reference to 
* the entry corresponding to name and a flag to 
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* indicate whether the name was successfully found. 
* - 


extern void import (symbol table table, 
const string name, 
id entry ‘entry, 
boolean *found); 


import () 将 用 来 替代 enter( ) 处 理 被 导入 的 名 字 。 它 创建 的 局 部 条 目 包含 到 导入 名 字 先 前 条 目的 间接 
链接 。 这 样 ， 对 搜索 机 制 而 言 ， 这 些 导 入 名 字 看 似 局 部 定义 并 能 正确 地 被 找到 。 此 外 ， 因 为 任何 一 个 导 
和 名字 存在 相应 的 局 部 条 目 ， 如 有 果 我 们 查看 到 某 个 局 部 声明 的 名 字 和 导 人 的 名 字 冲 突 ， 那 我 们 便 发 现 了 
一 个 “多 重 定义 ”的 错误 。 

这 种 方法 仅 在 非 局 部 变量 必须 导入 时 才 可 以 工作 得 很 好 。 特 别 地 ， 大 多 数 例 程 一 般 不 会 访问 很 多 的 
非 局 部 变量 ， 因 为 这 样 被 认为 是 不 好 的 程序 设计 风格 ， 因 此， 那些 额外 条 目的 数量 应 该 在 一 个 合理 的 范 
围 内 。 此 外 ， 实现 只 读 型 导入 仅 需 要 做 简单 的 扩展 。 在 那个 副本 条 目 中 ,我 们 要 么 设置 标志 表明 此 约束 ， 
要 么 拷贝 此 非 局 部 变量 条 目的 内 容 ， 并 添加 标识 以 表示 修改 此 变量 是 非法 的 。( 这 样 一 种 标识 也 可 用 于 
Ada 中 的 in 参数 。) 

额外 拷贝 方法 的 主要 困难 出 现在 那些 要 求 程序 员 导 入 所 有 非 局 部 名 字 而 不 仅仅 是 变量 名 字 的 语言 
中 。 这 种 情况 下 ， 额 外 的 空间 和 组 织 时 间 可 能 成 为 明显 的 负担 。 如 果 我 们 有 许多 嵌 套 的 非 导 入 型 作用 域 ， 
情况 将 更 加 严重 。 因 为 此 时 我 们 通常 要 逐 级 地 进行 导入 。 这 里 我 们 有 另外 一 种 方法 ， 它 采取 特殊 措施 以 
便当 非 局 部 定义 可 见 时 进行 标记 。 为 达 此 目的 ， 一 个 简单 方法 是 为 每 个 符号 提供 可 以 看 见 它 的 作用 域 的 
列表 。 不 幸 的 是 ， 这 样 的 列表 自身 可 能 非常 长 县 使 用 代价 不 非 。 根 据 一 个 重要 的 观察 ， 我 们 排除 了 对 那 


些 列表 的 需求 。 非 局 部 名 字 是 逐 级 导入 的 ， 因 此 ， 能 够 看 见 某 个 定义 的 那些 垦 套 的 非 导 人 型 作用 域 必 定 


是 一 个 连续 序列 。 也 就 是 说 ， 一 旦 一 个 作用 域 不 能 导入 某 个 符号 ， 那 么 能 套 在 它 内 部 其 他 作用 域 也 不 能 
导入 那个 符号 。 这 样 ， 我 们 仅 需 给 每 个 符号 标记 一 个 maximum_depth 域 。 这 个 域 的 意思 是 说 ， 那 个 符 
号 在 直到 但 不 超过 这 个 深度 的 作用 域 中 可 见 。 这 个 域 初始 设置 为 符号 定义 处 的 颈 套 深度 ， 而 有 渗透 力 的 
符号 其 嵌 套 深度 为 无 穷 。 

如 果 符 号 没有 导入 到 当前 作用 域 中 ， 那 么 当前 嵌 套 深度 将 大 于 该 符号 所 允许 的 最 大 深度 ， 并 拒绝 对 
谈 符号 的 访问 。 如 果 符 号 被 导入 ， 它 的 最 大 深度 域 的 值 将 递增 ， 且 允许 对 该 符号 的 访问 。 注 意 ， 当 我 们 
编译 完 导入 在 其 中 完成 的 作用 域 时 ， 最 大 深度 域 必须 要 重新 设置 为 它们 的 原来 的 值 。 这 项 工作 可 以 通过 
寻找 所 有 最 大 深度 域 值 大 于 它们 原来 做 套 层次 的 符号 来 完成 ， 因 为 最 大 深度 值 只 有 随 着 导 人 才 会 增 大 。 

如 果 允 许 只 读 型 导入 ， 我 们 可 以 使 用 另外 的 域 来 标识 那些 执行 只 读 引用 的 作用 域 数量 。 如 果 这 个 值 为 
零 ， 将 放弃 这 个 只 读 约束 。 这 个 计数 同样 必须 在 处 理 只 读 (作用 域 列 表 时 更 新 且 在 作用 域 结束 时 递 碱 

这 种 方法 的 困难 在 于 ， 它 必须 搜索 整个 符号 表 来 寻找 那些 由 于 导入 和 只 读 列表 而 递增 值 的 条 目 。 许 
多 产品 级 编译 器 实际 上 也 是 这 么 做 的 。 我 们 可 以 通过 把 导入 的 条 目 移 至 ( 带 有 链 式 冲突 解决 法 的 ) 哈 希 
链 的 首部 来 避免 该 方法 的 开销 。 现 在 ， 当 作用 域 结束 时 ， 那 些 导入 的 条 目 可 以 很 快 地 被 发 现 并 恢复 到 原 
来 的 位 置 上 。 ”， T 


8.4.4 可 更 改 的 搜索 规则 
with 语 铝 

Pascal 语 言 和 的 With 语 句 是 一 个 为 了 解释 标识 符 含义 而 改变 作用 域 的 检查 次 序 的 很 好 的 语言 特性 的 例 
子 。 我 们 有 如 下 语法 形式 : mE 

with R do <statement> 
其 中 <statement> 可 以 是 任意 大 小 的 复合 语句 ， 它 所 包含 的 标识 符 ， 如 有 可 能 ， 将 解释 为 记录 R 的 域 引 
用 。 也 就 是 说 ， 作 用 域 检查 的 次 序 为 : (1) with 语 句 中 出 现 的 记录 (此 例 中 为 R)，(2) 最 内 层 的 过 程 
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(或 函数 )，(3) 外 层 包围 过 程 (或 函数 )，(4) CHASER. WIth ae, BÉ eR 
内 层 到 最 外 层 的 顺序 检查 这 些 语 名 所 指示 的 记录 ， 然 后 再 检查 正常 的 能 套 名 字 作 用 域 。 

当 进 入 with 语 句 时 ， 那 些 通常 因为 没有 加 记录 名 限制 而 不 可 见 的 记录 域 现在 必须 对 搜索 过 程 可 见 。 
如 果 每 个 记录 和 作用 域 均 有 它们 自己 的 符号 表 ， 这 一 点 将 很 容易 做 到 。 记 录 的 符号 表 被 压 入 作用 域 栈 并 
在 语句 结束 时 从 栈 顶 弹出 。 | | 

如 果 记 录 域 和 符号 表 中 其 他 的 标识 符 混 在 一 起 ， 则 必须 借助 8.4.1 节 中 的 记录 号 技术 ， 并 采取 别 的 方 
法 来 让 这 些 域名 可 见 。 一 种 方法 是 打开 一 个 新 的 作用 域 并 把 所 有 属于 指定 记录 的 域 的 相关 条 目 拷贝 到 此 
作用 域 中 。 此 技术 虽然 避免 了 对 名 字 搜 索 过 程 做 任何 改动 ,但 所 有 拷贝 的 开销 是 不 能 接受 的 。 (此 开销 
或 许可 通过 仅 揽 贝 指针 以 取代 拷贝 条 目 本 身 来 减轻 一 些 。) 另外 一 种 方法 是 用 一 个 栈 包含 由 所 有 开放 式 
with 语句 所 指定 记录 的 记录 号 。 例 程 find( ) 首 先 使 用 此 栈 顶 部 的 记录 号 来 搜索 名 字 ， 然 后 是 次 栈 顶 的 
记录 号 ， 等 等 。 如 果 使 用 栈 中 的 任何 记录 号 均 未 发 现 有 匹配 的 名 字 ， 该 例 程 将 尝试 记录 号 为 零 的 搜索 ， 
而 这 将 导致 进行 通常 的 搜索 。 使 用 这 种 方法 ， 搜 索 速 度 可 能 会 很 慢 ， 因 为 在 发 现 名 字条 目 不 是 记录 域 之 
前 ， 我 们 要 额外 搜索 栈 中 的 每 一 个 记录 号 所 对 应 的 作用 域 。 把 记录 域 添 加 到 一 个 新 作用 域 中 虽然 避免 了 
搜索 上 的 时 间 和 惩罚 ， 但 在 语 名 的 开始 和 结束 处 还 是 要 花费 额外 的 时 间 。 

名 字 选 择 | 

在 Ada 语 言 里 ， 可 以 通过 在 对 象 前 面 冠 以 程序 包 、 子 程序 、 程 序 块 或 循环 的 名 字 来 选择 它们 。 对 程 
序 包 而 言 ， 此 方法 是 需要 的 ， 因 为 可 见 对 象 不 能 通过 普通 搜索 规则 来 访问 ， 除 非 使 用 use 子 句 。 这 种 选 
择 还 可 用 来 让 那些 可 能 被 对 象 名 字 的 局 部 重 定义 所 隐藏 的 对 象 重新 可 见 。 此 外 ， 这 种 方法 在 显 式 地 选择 
重 载 名字 的 某 个 特别 定义 时 也 很 有 用 (参见 第 8.6 布 )。 

如 果 某 个 标识 符 命名 了 一 个 作用 域 ， 此 标识 符 的 属性 之 一 是 指向 那个 作用 域 的 符号 表 的 指针 或 者 是 
与 那个 作用 域 关 联 的 作用 域 号 。 此 时 选择 性 访问 和 记录 域 的 访问 类 似 。 即 ， 我 们 使 用 作用 域 的 名 字 来 确 
定 一 个 符号 子 集 ， 然 后 仅 在 这 个 子 集 中 搜索 标识 符 。 

作用 域名 字 自 身 也 必须 遵循 特殊 的 作用 域 规 则 。 在 Ada/CS 语 言 里， 程序 包 不 能 髓 套 ， 因 此 ， 编 译 
过 程 中 已 经 处 理 的 包 名 和 正在 处 理 的 当前 程序 包 的 名 字 均 被 看 成 全 局 名 字 。 在 Ada 语 言 里 ， 程 序 包 可 以 
能 套 而 且 实 际 上 它们 可 以 在 程序 块 、 子 程序 和 其 他 程序 包 中 声明 。 包 名 也 因此 像 其 他 对 象 的 名 字 一 样 处 
理 。 单 独 编译 的 程序 包 可 通过 with 子 句 来 访问 《和 它 和 Pascal 语 言 的 with 语句 有 很 大 区 别 )。 

子 程序 名 也 遵守 通常 的 作用 域 规则 ， 但 对 子 程序 内 部 定义 的 选择 性 访问 也 仅 限 于 该 子 程序 内 部 。 块 
和 循环 的 名 字 均 局 部 于 相应 语言 构造 的 作用 域 ， 因 而 不 可 能 从 其 外 部 进行 选择 性 的 访问 。 

Ada 的 Use 子 何 | | 

Ada 语 言 的 情况 更 加 复杂 。 一 个 use 子 名 其实 是 一 个 声明 而 不 是 一 条 语句 ， 它 指出 那些 在 一 个 或 多 
个 包 中 可 见 的 定义 可 以 被 直接 访问 。 当 编译 器 处 理 以 下 子 句 时 : 

use ptpz， + Da: | 
(其 中 pi,pz,，…% pn 是 程序 包 的 名 字 ) 那些 程序 包 中 的 所 有 可 见 定义 均 是 可 访问 的 ， 就 好 像 们 是 局 部 定 
义 的 一 样 。 然 而 ， 此 时 需要 特殊 规则 来 控制 名 字 的 冲突 : | 

« 如 果 名 字 可 以 通过 使 用 通常 的 作用 域 规则 找到 (不 包括 由 程序 包 提 供 的 名 字 )， 那 么 就 应 用 那个 

定义 。 也 就 是 说 ， 包 里 的 名 字 能 够 直接 访问 仅 当 它们 不 与 任何 外 围 作 用 域 中 声明 的 名 字 冲 突 ; 换 

名 话说， 可 认为 它们 在 包围 正在 编译 中 的 程序 单元 的 作用 域 中 声明 。 

* 如 采 在 use 列 表 上 的 多 个 包 均 提供 相同 的 名 字 ， 那 么 此 时 这 些 包 中 的 那个 相同 名 字 的 定义 没有 一 

个 能 直接 可 见 ， 除 非 它们 命名 的 实体 允许 重 载 (参见 第 8.6 节 )。 此 规则 保证 了 程序 包 在 use 列 表 

中 命名 次 序 的 无 关 性 。 

此 外 ， 可 以 使 用 与 处 理 with 语句 类 似 的 技术 来 处 理 Ada 语 言 的 use 子 句 。 我 们 可 以 试 着 为 所 有 从 包 
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中 导出 且 没 有 冲突 的 定义 添加 局 部 符号 表 条 目 。 这 可 能 代价 不 非 ， 因 为 某 些 程序 包 可 能 很 大 ， 有 数 百 个 
可 访问 的 定义 〈 例 如 ， 提 供 IO 或 数值 子 程序 定义 的 程序 包 )， ` 

作为 选择 ， 我 们 可 以 采用 标准 的 搜索 过 程 ， 它 带 有 新 的 选项 以 应 对 寻找 名 字 定义 的 失败 。 如 果 找 到 
一 个 定义 ， 则 不 需要 检查 任何 程序 包 。 反 之 ， 如 果 没 有 发 现任 何 定义 ， 我 们 必须 要 检查 use 列 表 上 所 有 
的 程序 包 以 查验 的 实际 定义 所 在 。 如 果 由 程序 包 提供 的 名 字 访 问 频繁 ， 这 种 方法 可 能 会 很 慢 。 

一 种 有 效 的 折 中 方法 是 ， 只 对 名 字 的 首次 引用 进行 上 述 那 种 彻底 的 搜索 过 程 。 如 果 一 个 定义 在 某 个 
包 中 被 找到 ， 我 们 将 创建 它 的 局 部 拷贝 。 我 们 这 样 做 是 因为 如 果 名 字 被 引用 一 次 ， 它 很 可 能 会 再 度 被 引 
用 。 后 续 的 搜索 可 能 会 因此 而 加 快 ， 而 对 那些 没 被 引用 的 包 中 的 名 字 ， 我 们 从 不 为 它们 建立 条 目 。 


8.5 RAAR 


有 时 仅仅 是 符号 的 出 现 即 可 充当 对 象 的 隐 式 声明 。 这 样 ， 在 Algol 60 中 ， 在 语句 边 上 出 现 的 标号 即 
可 用 来 声明 (或 定义 ) 此 标号 ， 而 且 可 以 应 用 平常 的 作用 域 规则 。 一 个 有 趣 的 例子 是 Ada 语 言 里 的 for 
loop 索 引 : 一 个 循环 索引 被 隐 式 地 声明 为 和 循环 的 范围 指示 同一 个 类 型 ， 且 一 个 新 的 作用 域 被 打开 以 便 
循环 索引 不 会 和 已 存在 的 变量 产生 冲突 。 

处 理 隐 式 声 明 时 ， 所 考虑 的 关键 问题 是 ， 疲 隐 式 声 明 的 名 字 是 遵循 正常 的 作用 域 规则 还 是 打开 新 的 
作用 域 以 避免 和 已 有 名 字 产 生 冲 突 。 如 果 名 字 确 实 遵 循 普通 的 作用 域 规则 且 不 需要 它 自己 的 作用 域 ， 那 
么 和 其 他 声明 一 样 ， 我 们 把 它 添加 到 符号 表 中 。 如 果 符 号 不 遵守 通常 的 作用 域 规则 ( 像 Pascal 的 标号 和 
Ada 的 for 循 环 索引 ) ， 那 么 它 就 需要 特殊 的 处 理 。 

在 Pascal 语 言 里 ， 标 号 可 以 存放 在 符号 表 中 .但 需要 小 心 处 理 ， 一 旦 那些 直接 包含 它 的 子 程序 或 结 
构 化 语句 退出 ， 必 须 将 标号 标记 为 不 可 访问 的 。 这 个 完成 以 后 ， 我 们 就 不 可 能 从 结构 化 语句 的 外 面 跳 到 
它 的 内 部 。Pascal 标 号 的 问题 在 于 它 的 声明 和 访问 规则 不 能 很 好 地 配合 。 和 其 他 种 类 的 标识 符 一 样 ， 一 
个 给 定 标号 在 一 个 名 字 作 用 域 ( 子 程序 或 主 程序 ) 中 仅 能 有 一 个 声明 ， 但 从 那个 声明 所 在 作用 域 到 那个 
标号 的 所 有 跳 转 并 不 都 是 合法 的 。 

对 于 像 Ada 中 的 for 循 环 那样 的 能 打开 一 个 新 的 名 字 作用 域 的 构造 ， 我 们 在 处 理 它 的 时 候 可 以 实际 为 
它 打开 一 个 仅 包含 单个 声明 的 全 新 作用 域 。 如 果 友 许 内 晨 声明 隐藏 名 字 的 选择 性 访问 ， 如 在 Ada 中 那样 ， 
那么 就 有 必要 创建 新 的 作用 域 。 如 果 不 允 许 选择 性 的 访问 ， 那 么 作为 小 小 的 优化 ， 我 们 可 以 试 着 将 索引 
变量 包括 到 当前 作用 域 中 。 如 果 先 前 没有 该 名 字 ， 这 点 将 很 容易 做 到 。 如 果 已 有 相同 名 字 ， 那 么 该 名 字 
的 当前 条 目 将 被 “抽出 ”， 而 取代 它 的 是 循环 索引 的 条 目 。 在 循环 结束 时 ， 循 环 索 引 条 目 将 从 当前 作用 
域 中 删除 ， 且 原先 的 条 目 将 得 到 恢复 (如果 有 的 话 )。 | 


8.6 ER 


大 多 数 块 结构 的 语言 允许 某 些 程度 上 的 重 载 即 ， 相 同 的 符号 根据 它们 的 上 下 文 的 不 同 可 以 拥有 不 
同 的 含义 。 在 Pascal 请 言 里 ， 一 个 简单 的 重 载 例子 是 ， 相 同 的 标识 符 可 以 指示 一 个 函数 的 名 字 和 它 的 返 
回 值 。 此 重 载 可 导致 一 些 不 易 察 觉 的 错误 。 例 如 ， 如 果 语 名 f : = f + 1 在 无 参 函 数 f 中 出 现 ， 那 么 在 左 部 
出 现 的 将 指示 返回 变量 ， 而 右边 的 和 则 表示 该 函数 的 递归 调用 。 

Ada 语 言 中 支持 重 载 的 地 方 很 多 。 过 程 与 国 数 的 名 字 、 运 算 符 、 或 枚 举 文字 值 均 能 被 重 载 。 也 就 是 
说 ， 在 同一 时 间 可 以 访问 多 个 不 同 的 定义 。 例 如 ， 我 们 可 以 有 : 


function "+" (X,Y : Complex) return Complex is . . . 


和 
function "+" (U,V : Polar) return Polar is . . . 
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它们 重 载 了 + 运算 符 来 求解 复数 和 极 座 标 值 ， 而 + 运算 符 也 可 用 于 整数 和 实数 求 和 。 所 有 这 些 可 选 
择 的 定义 同时 存在 。 类 似 地 ， 我 们 有 : 
type month is (Jan, Feb, Mar, Apr, May， Jun, Jul, Aug, Sep, Oct, Nov, Dec); 


和 
type base is (Bin, Oct, Dec); 


它们 重 载 了 Oct 和 Dec。 | 

Ada 语 言 中 的 重 载 规则 是 ， 过 程 、 函 数 、 运 算 符 或 枚 举 文字 值 等 的 新 定义 将 重 载 而 不 是 隐藏 现 有 的 
定义 ， 如 果 上 下 文 可 用 来 区 分 这 些 新 旧 选 择 的 话 。 这 样 ， 如 有 果 我 们 有 : 

A,B: polar; 那么 :+ A+B- 


就 是 非 二 义 的 ， 因 为 在 此 上 下 文中 只 能 有 一 个 运算 符 + 的 重 载 定义 是 合法 的 。Ada 语 言 有 一 个 精巧 的 算法 
(将 在 第 11 章 里 讨论 ) 可 以 判断 给 定 的 上 下 文 所 暗示 的 重 载 符号 可 能 的 解释 。 

C++ 语言 也 允许 重 载 多 数 内 建 的 运算 符 ， 这 其 中 包括 数组 下 标 和 函数 调用 的 操作 。 

符号 表 必 须 提供 名 字 所 有 可 能 的 含义 以 便 它 们 为 重 载 解释 算法 所 用 。 处 理 符号 表 中 重 载 名 字 的 关键 
在 于 将 重 载 名 字 的 所 有 可 能 的 定义 链接 在 一 起 。 这 就 确保 了 在 查找 名 字 时 ， 可 以 很 快 获得 所 有 可 能 的 定 
义 。 然 后 ， 使 用 重 载 名 字 的 语义 例 程 检查 每 个 可 能 的 定义 并 通过 上 下 文选 择 其 中 的 一 个 。 做 出 这 样 选 择 
的 算法 很 复杂 。 我 们 将 在 考虑 表达 式 翻 译 的 语义 例 程 中 详细 讨论 这 些 算法 。 为 使 这 个 方法 正常 工作 ,无 
论 名 字 在 何 时 被 重 载 定义 , 我们 都 必须 首先 查看 该 名 字 是 否 已 经 可 见 。 如 果 它 可 见 且 不 在 当前 作用 域 中 ， 
则 把 它 填 入 当前 作用 域 中 并 将 此 新 条 目 与 任何 已 有 的 定义 相 链接 ， 那 些 已 有 的 定义 将 成 为 不 可 见 的 。 如 
果 在 当前 作用 域 中 发 现 该 名 字 ， 我 们 就 将 这 个 新 定义 加 入 到 重 载 链 中 ， 如 果 它 是 一 个 合法 重 载 的 话 。 无 
论 是 哪 一 种 情况 ， 我 们 都 必须 执行 相关 的 检查 以 确保 重 载 名字 的 新 定义 通过 重 载 解 析 算 法 能 够 实际 区 别 
于 它 先前 的 所 有 定义 。 

在 关闭 作用 域 时 ， 可 以 删除 某 些 重 载 (名字)。 这 点 很 容易 做 到 ， 只 要 重 载 链 从 内 层 中 的 定义 向 前 
延伸 至 更 远 处 作用 域 中 的 定义 。 关 闭 作用 域 将 从 重 载 链 首 的 地 方 删 除 若干 定义 。 例 如 ，Pascal 的 沙 数 定 
义 创建 了 包括 返回 变量 和 函数 名 的 适度 形式 的 重 载 。 返 回 变量 是 在 函数 体 作用 域内 ， 而 函数 名 则 是 在 函 
数 体外 的 作用 域 中 (否则 浮 数 将 不 能 在 它 的 函数 体外 被 调用 )。 在 冰 数 体内 ， 这 两 个 重 载 名 字 将 链 在 一 
起 以 使 对 返回 变量 的 引用 和 国 数 的 递归 调用 成 为 可 能 。 在 关闭 国 数 体 时 ,返回 变量 的 定义 将 消失 ， 而 函 


” 数 名 继续 保留 。 这 样 就 保证 了 在 函数 外 部 对 函数 的 调用 ， 但 那里 返回 变量 是 不 可 访问 的 。 


8.7 前 向 引用 


在 允许 前 向 引用 的 语言 里 ， 若 将 名 字 引 用 解析 为 已 有 的 非 局 部 定义 的 引用 而 不 是 即将 处 理 的 局 部 定 
义 的 引用 ， 那 么 可 能 存在 着 一 定 的 危害 。Pascal 程 序 中 有 这 种 情况 发 生 ， 那里 指针 启 明 中 的 类 型 在 相同 
作用 域 的 后 面部 伐 才 开始 声明 。 例 如 : 

type T = Integer; 

procedure PP; 

type 

P = TT, 
T= Real 

end | 
P 应 当 是 指向 Real 的 指针 ， 但 是 它 却 很 容易 《不 正确 地 ) 被 解释 为 指向 Integer 的 指针 。 注 意 ， 前 向 引用 
是 提供 用 来 允许 那些 互相 引用 并 链接 的 类 型 。 
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类 似 的 问题 也 出 现在 像 Algol 60 那 样 允 许 到 非 局 部 标号 的 goto 的 语言 里 。 因为 标号 遵守 作用 域 规则 , 
引用 标号 L 的 goto 语 句 若 最 终 绑 定 到 非 局 部 标号 L， 仅 当 所 有 中 间作 用 域 已 全 部 处 理 完 毕 。 这 是 因为 在 
中 间作 用 域 中 出 现 的 L 将 会 取代 L 的 已 有 出 现 ， 而 且 检 验 无 此 定义 存在 的 惟一 方法 是 彻底 地 处 理 所 有 这 样 
的 中 间作 用 域 。 在 Pascal 中 ， 事 情 要 简单 一 些 ， 因 为 标号 必须 在 定义 前 声明 。 这 起 码 告 诉 我 们 期 望 有 一 
个 标号 的 定义 ， 即 使 我 们 还 没有 发 现 它 。 | o 

前 向 引用 中 更 具 挑 战 性 的 问题 出 现在 我 们 试图 严格 执行 与 前 向 引用 相反 的 规则 的 时 候 。 例 如 ， 对 常 
量 的 前 向 引用 在 Pascali 和 Ada 语 言 中 是 非法 的 。 但 如 果 在 Pascal 程 序 出 现 如 下 语句 ， 情 况 会 如 何 呢 ? 

const C = 10; | 


procedure PP; 
const D - C; 


C = 20; 


D 应 该 等 于 10 还 是 20? 事实 上 ， 它 应 该 哪个 都 不 是 ， 因 为 D 的 定义 包含 一 个 非法 的 前 向 引用 。 特 别 
地 ， 过 程 PP 中 所 有 C 的 引用 必须 是 对 最 内 层 中 C 的 定义 的 引用 ， 全 在 的 定义 和， 它 却 是 一 个 前 向 引用 。 

这 个 错误 很 难 发 现 ， 因 为 我 们 知道 ， 如 果 D 是 正确 定义 的 ， 它 一 定 会 等 于 10。 事 实 上 ， 几 乎 所 有 
国会 格 D 填 岂 10 昌 不 迷 出 任 们 错误 信息 ， 仅 在 遇 到 局部 C 的 定义 的 时 候 ， 我 们 才 有 机 会 注意 
到 这 个 错误 ， 而 那 时 D 的 处 理 已 经 全 部 完成 了 。 注 意 ， 尽 管 如 此 ， 一 个 正确 的 Pascal 编 译 器 还 是 会 发 现 
这 个 错误 的 。Ada 语 言 指出 ， 一 个 声明 的 作用 域 仅 从 其 定义 点 延伸 至 包含 它 的 作用 域 示 尾 ， 因 此 ， 在 
Ada 中 不 会 出 现 这 个 问题 。 
处 理 前 向 引用 

为 正确 处 理 前 向 引用 ， 在 看 到 符号 所 有 可 能 的 定义 之 前 ， 我 们 必须 要 尽量 避免 立即 对 它 进行 了 解析 。 
如 果 人 允许 无 约束 的 前 向 引用 ， 那 么 处 理 此 类 问题 惟一 的 方法 是 对 程序 正文 进行 多 遍 处 理 。 第 一 遍 寻 找 所 
有 的 定义 并 建立 符号 表 。 紧 接着 ， 在 后 续 遍 中 处 理 声明 和 语句 ， 此 时 使 用 已 经 建 好 的 符号 表 解 析 所 有 的 
名 字 引 用 。 它 所 依据 的 是 ， 如 果 一 遍 编 译 器 确实 可 行 ， 那 么 前 向 引用 必定 是 严格 受 限 的 。 

在 Pascal 语 言 里 ， 到 类 型 名 的 前 向 引用 可 以 用 在 指针 类 型 中 。 在 处 理 时 ， 我 们 可 以 将 所 有 指向 类 型 
T 的 指针 引用 链接 在 一 起 直到 类 型 声明 部 分 结束 为 止 。 那 时 ， 能 找到 并 解析 所 有 的 类 型 名 。 这 种 处 理 方 
法 是 可 行 的 ， 因 为 类 型 声明 并 不 产生 代码 ， 惟 一 需要 更 新 的 是 表示 类 型 信息 的 内 部 数据 结构 。 

goto 语 句 中 标号 的 前 向 引用 问题 比较 棘手 ， 因 为 我 们 要 为 goto 语 句 生成 代码 ， 但 即使 在 一 遍 编 译 
器 中 问题 也 还 是 有 可 能 解决 的 ， 因 为 我 们 几乎 知道 我 们 将 产生 什么 样 的 代码 一 一 所 缺少 的 就 是 待 填 人 的 
地 址 。 很 多 一 般 的 前 向 引用 通常 不 可 能 在 一 遍 处 理 中 得 到 解决 。 例 如 ， 在 PL/I 语 言 里 ， 如 果 我 们 允许 语 
句 A : = B + C 出 现在 A、B 或 C 的 定义 前 ， 那 么 简单 地 填写 地 址 是 不 会 满足 要 求 的 ， 因 为 代码 的 种 类 (和 
它 的 大 小 ) 将 依赖 于 A、B 或 C 的 声明 。 于 是 ， 可 能 需要 先进 行 一 遍 处 理 以 便 编译 器 在 试图 生成 合适 的 代 
码 之 前 能 够 确定 标识 符 的 类 型 。 
非法 前 向 引用 


为 发 现 一 遍 编 译 器 中 非法 的 前 向 引用 ， 我 们 采取 了 那些 用 于 导入 表 的 技术 。 这 里 的 想法 是 ， 如 果 我 


们 知道 某 个 符号 的 引用 可 以 做 非 局 部 的 解析 ， 而 且 它 的 局 部 定义 依然 没有 的 话 ， 我 们 将 视 那个 符号 已 被 
导入 。 在 实际 情况 中 也 确实 如 此 ， 因为 该 引用 隐 含 地 指出 将 不 会 有 那个 符号 的 局 部 声明 出 现 。 如 果 有 那 
么 一 个 的 话 ， 它 也 必须 因为 前 向 引用 的 约束 而 先 于 它 的 首次 使 用 。 我 们 可 以 特殊 标记 这 个 隐 式 的 村 入， 
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这 样 ， 如 果 找 到 局 部 定义 ， 那 么 将 会 出 现 与 那个 导入 符号 的 冲突 ， 而 且 我 们 也 将 做 出 正确 的 诊断 。 

这 种 方法 是 可 行 的 。 但 惟一 的 问题 是 ， 我 们 必须 在 所 有 的 情况 中 都 做 出 大 量 的 工作 而 其 结果 只 是 在 
碰 运 气 式 地 希望 在 后 面 会 出 现 一 个 非法 的 局 部 定义 。 如 果 我 们 想 彻 底 地 进行 检查 ， 这 些 就 不 可 避免 。 这 
也 让 我 们 很 容易 明白 为 什么 许多 语言 的 定义 只 是 简单 地 指出 ,在 新 定义 找到 前 ， 非 局 部 定义 可 以 被 引用 。 


这 就 是 Ada 语 言 的 作用 域 规则 ; 到 目前 为 止 ， 它 还 是 比较 容易 执行 的 ， 而 且 在 大 多 数 情况 下 它 也 是 相当 
合理 的 。 | 


8.8 小 结 


本 章 的 大 部 分 都 在 讨论 块 结构 符号 表 以 及 各 种 对 基本 作用 域 思 想 的 扩展 给 符号 表 带 来 的 影响 。 根 据 
这 些 讨 论 ， 图 8-1 中 提出 的 符号 表 接 口 在 某 种 程度 上 明显 地 被 理想 化 了 。 为 在 任何 特定 编译 器 中 使 用 那 
个 接口 而 必须 做 出 的 修改 取决 于 正 被 编译 的 语言 的 特性 集合 以 及 所 选择 的 作用 域 表示 。 作 用 域 表示 的 选 
择 一 一 单个 的 全 局 表 或 者 每 作用 域 一 张 表 ， 其 实 可 以 由 语言 来 决定 ， 或 者 它 可 能 受到 来 自 编译 器 设计 、 
特别 是 多 遍 组 织 的 编译 器 的 设计 的 强烈 影响 。 


练习 


1， 在 产品 编译 器 中 用 来 实现 符号 表 的 最 常见 的 两 种 数据 结构 是 二 又 搜索 树 和 哈 希 表 。 这 两 种 数据 结构 
各 自 都 有 什么 优 缺 后? 

2. 如 果 在 某 个 没有 动态 存储 分 配 的 场合 中 使 用 哈 希 表 ， 可 以 通过 从 固定 数组 中 分 配 哈 希 链 上 的 条 目 来 
实现 外 部 冲突 解决 法 。 试 将 这 种 方法 和 内 部 解决 技术 以 及 采用 动态 分 配 的 外 部 链 式 技术 进行 比较 以 
AE CHIR o 

3， 描 述 本 章 里 所 介绍 的 处 理 符号 表 中 多 重 作用 域 的 两 种 技术 ， 并 列 出 每 种 方法 中 打开 和 关闭 作用 域 所 
需 的 动作 。 追 踪 每 种 方法 在 编译 图 8-5 中 的 示例 程序 时 所 执行 的 动作 序列 。 

4， 分 别 给 出 采用 二 又 搜索 树 和 哈 希 表 方 法 在 实现 每 种 多 重 作 用 域 (单一 全 局 符号 表 和 每 作用 域 一 张 表 ， 
时 所 需 的 四 种 名 字 搜 索 算 法 。 

5， 什 么 样 的 语言 使 用 标识 符 的 串 空间 表示 是 不 合适 的 ? ATA? 

6， 比 较 本 章 中 介绍 的 处 理 记 录 域 名 字 的 两 种 方法 。 每 种 方法 是 如 何 与 每 种 多 重 作用 域 选择 协调 工 
作 的 ? 

7， 描 述 在 每 种 多 重 作用 域 的 实现 中 ， 在 外 层 包围 作用 域 中 处 理 Modula-2 模 块 导出 名 字 的 技术 〔( 见 8.4.2 
节 的 介绍 )。 

8， 比 较 处 理 导入 名 字 的 两 种 方法 。 它 们 是 如 何 与 两 种 作用 域 表 示 方 法 协调 工作 的 ? 

9。 分 析 你 喜欢 的 程序 设计 语言 ， 确 定 它 的 哪些 特性 对 设计 适合 那个 语言 编译 的 符号 表 有 影响 。 有 基体 摘 

述 每 一 个 相关 特性 的 影响 。 

根据 上 面 的 分 析 ， 给 出 编译 你 所 分 析 的 语言 所 需 符号 表 的 接口 和 内 部 设计 

IAPR ASI SS SERIE CESAR. SRI AREA EE cR IUS 

结果 树 是 如 何 保持 完美 平衡 的 。 

d Gps ott CO 5 节 作 为 词法 和 氏 吕 快速 识别 关键 字 的 方法 介绍 过 . 许多 已 发 表 的 关于 此 话 
题 的 文章 均 强调 创建 使 用 空间 尽 可 能 少 的 最 小 完美 哈 希 表 的 算法 。 该 方法 的 一 个 缺点 是 ， 大 多 数 或 
所 有 的 非 关 键 字 标 识 符 串 产生 的 哈 希 值 与 关键 字 的 哈 希 值 相 冲突 ， 这 样 ， 为 了 最 终 确 定单 词 需要 进 
行 串 比较 的 操作 。 因 为 串 比 较 在 许多 机 器 上 较 慢 ， 因 此 我 们 将 尽量 避免 它们 。 较 大 的 哈 希 表 可 能 使 
得 某 些 哈 希 值 没有 与 之 关联 的 关键 字 。 如 果 标 识 符 映 射 到 这 样 的 值 ， 则 无 需 串 比较 来 做 出 标识 符 / 


2 








A4 号 R 181 


关键 字 的 选择 。 采 用 实验 或 分 析 的 方法 研究 完美 哈 希 函数 所 用 哈 希 表 大 小 和 关键 字 识 别 效率 之 间 的 
关系 。 
12， 在 8.4.1 节 讨论 记录 域名 字 的 时 候 ， 我 们 提 到 某 些 语言 允许 名 字 域 表达 式 的 缩写 形式 。 使 用 那 一 节 里 |285 
的 示例 ， 只 .X.C 和 R.C 将 是 等 价 的 引用 ， 如 同 R.X.A 和 R.A 一 样 。 描 述 正确 处 理 这 样 的 域 引 用 所 必需 
的 数据 结构 和 算法 。 | 
13， 另 一 种 命名 记录 域 的 方法 和 Pascal、Ada 或 类 似 语言 中 所 使 用 的 蜂 序 相反 。 也 就 是 说 ， 它 使 用 C.X.R 
来 代替 R.X.C。 描 述 在 从 左 到 右 的 单 遍 处 理 中 正确 处 理 这 样 的 域 引 用 所 必需 的 数据 结构 和 算法 。 
14， 练 习 12 或 练习 13 中 描述 的 可 更 改 的 搜索 规则 将 如 何 影响 Pascal 语 言 的 with 语句 的 实现 ? 286 





第 9 章 运行 时 存储 组 织 


程序 设计 语言 的 发 展 带 来 了 日 渐 多 变 的 运行 时 存储 管理 ， 起 初 ， 所 有 的 存储 分 配 均 为 静态 的 
(static) 一 一 即 ， 在 整个 程序 运行 期 间 保 持 不 变 。Algol 60 及 其 后 继 语 言 引入 了 要 求 栈 式 分 配 的 特性 ， 存 
储 空 间 将 在 程序 运行 期 间 的 特定 时 刻 被 压 人 或 弹出 运行 时 栈 ， 例 如 ， 在 过 程 被 调用 或 返回 时 。Lisp 及 其 
后 来 的 语言 ， 包 括 Pascal， 引 入 了 堆 分 配 (heap allocation), ， 人 允许 在 程序 运行 期 间 的 任 一 一 时 刻 进行 空间 
的 分 配 和 释放 。 

作为 一 种 考察 语言 存储 分 配 需求 特性 的 方法 ， 我 们 首先 考虑 数据 区 (data area) 的 概念 。 数 据 区 是 
一 个 存储 块 ， 该 区 域 中 变量 和 其 他 编译 器 所 已 知 的 对 象 均 采 用 一 - 致 的 存储 分 配 需求 。 即 ， 数 据 区 中 任 一 
对 象 必 须要 分 配 空间 时 ， 由 它 包含 的 所 有 的 对 象 也 必须 同时 分 配 空间 。Micro 程 序 的 变量 就 是 一 个 简单 
数据 区 示例 。 它 们 在 程序 开始 运行 时 即 被 分 配 ， 并 且 保 持 这 种 分 配 直 至 程序 运行 结束 。 由 Pascal 或 Ada 
中 的 调用 new 动 态 分 配 的 记录 也 可 以 作为 一 种 数据 区 。 


9.1 静态 分 配 


在 许多 早期 语言 ， 尤 其 是 汇编 语言 和 FORTRAN 中 ， 所 有 存储 分 配 都 是 静态 的 。 在 程序 生命 期 中 ， 
数据 对 象 的 在 储 空 间 被 分 配 到 固定 的 位 置 。 仅 当 待 分 配对 象 的 数量 和 大 小 在 编译 时 刻 是 已 知 的 时 候 ， 静 
杰 分 配 的 使 用 才 成 为 可 能 。 这 种 分 配方 法 ， 当 然 ， 使 得 存储 分 配 变 得 极 简单 ， 但 造成 很 大 的 空间 浪费 。 
二 是， 程序 员 有 了 时 必须 徐 盖 (overlay) 变量 。 例 如 ， 在 FORTRAN 中 equivalence 语 句 常用 来 减少 存储 需 
求 。 覆 盖 能 导致 很 微妙 的 程序 设计 错误 ， 这 是 因为 对 一 个 变量 的 赋值 将 隐 式 地 改变 另 一 个 变量 的 值 。 n 
盖 还 降低 了 程序 可 读 性 。 

在 现代 语言 中 ， 静 态 分 配 用 于 那些 大 小 固定 、 在 程序 整个 执行 期 间 均 可 访问 的 全 局 变量 ， 以 及 那些 
需要 在 程序 执行 期 间 保 持 不 变 的 文字 常量 。 静 态 分 配 还 可 用 在 Modula-2 的 模块 或 Ada 的 高 层次 包 结 构 中 
的 局 部 变量 ， 以 及 C 中 static 和 extern 变 量 。 

从 概念 上 讲 ， 我 们 可 以 将 静态 对 象 绑 定 到 绝对 地 址 。 人 们 往往 比较 喜欢 用 一 个 (DataArea， Offset) 
对 来 表示 静态 数据 对 象 。Offset 在 编译 时 刻 是 固定 的 ， 而 DataArea 的 地 址 可 以 延迟 到 链接 或 运行 时 刻 确 
定 。 例 如 ， 在 FORTRAN 中 ， 数据 区 可 以 开始 于 多 个 公共 块 中 某 一 个 ， 或 者 开始 于 某 个 子 例 程 中 局 部 变 
量 的 存储 块 。 典 型 地 ， 这 些 地 址 是 在 链接 时 刻 确 定 的 。 地 址 绑 定 必须 推迟 到 链接 时 刻 ， 因 为 ， 
FORTRAN 的 子 例 程 可 以 是 单独 编译 的 ， 这 将 使 编译 器 无 法 了 解 程序 中 所 有 的 数据 区 信息 。 

作为 选择 ， 可 将 DataArea 的 地 址 装 入 到 一 个 寄存 器 中 ， 这 就 允许 静态 数据 项 可 以 表示 为 (Register, 
Offset) 对 。 这 种 寻 址 方式 几乎 在 每 种 机 器 上 都 有 。 这 样 表示 一 块 静态 数据 的 好 处 在 于 能 使 我 们 把 静态 对 
象 置 于 何 处 的 决定 的 做 出 一 直 延 迟到 执行 之 前 。 这 项 技术 在 加 载 -运行 (load-and- -go) 的 这 样 一 个 无 显 式 
链接 步骤 的 环境 下 是 很 有 用 的 ， 因 为 程序 中 各 种 构件 的 大 小 在 整个 程序 被 翻译 前 是 无 法 确定 的 。 这 正 是 
用 来 实现 语言 Micro 的 技术 。 例 如 ， 在 知道 生成 的 程序 代码 到 底 多 大 之 前 ， 我 们 将 无 法 决定 在 哪里 放置 
文字 常量 池 。 因 此 ， 在 完成 语句 编译 前 ， 不 可 能 产生 到 该 常量 池 的 绝对 地 址 的 引用 或 访问 。 


9.2 栈 分 配 
几乎 所 有 的 现代 程序 设计 语言 都 包含 了 递归 过 程 这 一 需要 动态 分 配 的 语言 特性 。 每 一 次 递归 调用 需 
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要 为 过 程 局 部 变量 的 新 的 拷贝 分 配 空间 ， 因 此 ， 在 程序 执行 期 间 所 需 的 数据 对 象 的 数量 在 编译 时 刻 是 未 
知 的 。 为 实现 递归 ， 一 个 过 程 或 函数 所 需 所 有 数据 : 





空间 将 被 看 成 是 一 个 数据 区 ， 由 于 这 个 数据 区 处 理 procedure p(a : integer) is 
方式 特殊 ， 我 们 称 之 为 活动 记录 (Activation Ce .10) of real 
Record，AR)。 当 子 程 序 返回 时 ，AR 从 栈 顶 弹出 ， begin 
释放 例 程 的 局 部 数据 。 为 明白 栈 分 配 如 何 工作 ， 请 end, eon 
考虑 图 9-1 中 所 示 的 程序 : 

图 9-1 中 的 例 程 要 求 为 它 的 参数 a 和 局 部 变量 b、 图 9-1 一 个 简单 的 子 程序 


c 分 配 宇 间 。 它 也 需要 存放 控制 信息 如 返回 地 址 的 
空间 。 在 过 程 被 编译 时 ， 它 的 空间 需求 被 记录 下 来 。 
特别 地 ， 每 个 数据 项 相对 于 AR 开 始 位 置 的 偏 移 将 存 
放 在 符号 表 中 。 总 的 空间 需求 ， 也 即 AR 的 大 小 也 被 
记录 下 来 。 在 我 们 的 例子 中 ， 假 设 p 的 控制 信息 需 


要 5 个 字 的 空间 (通常 ， 所 有 过 程 的 这 个 需求 都 是 
一 样 的 )。 参 数 a 需 要 一 个 字 的 空间 ， 变 量 b 和 需要 2 个 <— Offset- 0 


字 的 空间 ， 数 组 c 需 要 20 个 字 的 空间 。 图 9-2 显 示 了 图 9-2 过 程 p 的 活动 记录 
p 的 AR。 

在 p 中 ， 每 个 局 部 数据 对 象 通过 相对 于 AR 开 始 处 的 偏 移 来 寻 址 ， 这 个 偏 移 是 一 个 固定 的 可 在 编译 时 
确定 的 常量 。 因 为 我 们 通常 把 AR 的 开始 位 置 存放 在 寄存 器 中 ， 因 此 ， 每 块 数据 可 以 用 (Register Offset) 
对 来 录 址 ， 而 这 几乎 是 所 有 的 计算 机 体系 结构 中 的 标准 寻 址 模式 。 例 如 ， 如 果 寄 存 器 R 指 向 p 的 AR 的 开 
始 位 置 ， 变 量 b 可 以 寻 址 为 (R,6)， 那 么 该 变量 的 存储 地 址 在 运行 时 刻 将 计算 为 R 的 值 加 6。 

通常 情况 下 ， 文 字 常量 2.51 不 存放 在 活动 记录 中 ， 因 为 存储 在 AR 中 的 局 部 数据 的 值 在 调用 结束 时 将 
消失 。 如 果 2.51 被 存放 在 AR 中 ， 那 么 它 的 值 在 每 次 调用 前 将 不 得 不 初始 化 。 而 将 这 些 文字 常量 分 配 到 一 
个 称 为 文字 常量 池 (literal pool) 的 静态 区 中 是 一 种 既 简 单 又 高 效 的 做 法 。 

很 多 语言 ( 包括 Ada 和 Ada/CS ) 允许 动态 数组 (dynamic array). 动态 数组 的 边界 是 在 运行 时 而 非 
编译 时 确定 的 ， 因 此 ， 这 些 数组 不 能 在 活动 记录 中 分 配 。 一 旦 相关 的 声明 清晰 后 〈( 即 ， 完 全 计算 出 来 )， 
动态 数组 即 被 分 配 空间 。 大 多 数 语 言 中 声明 优先 于 语句 ， 因 此 为 动态 数组 分 配 空间 往往 是 子 程序 在 被 调 
用 后 首先 做 的 工作 之 一 。 | 

在 第 11 章 里 我 们 将 详细 讨论 数组 声明 的 翻译 。 对 于 动态 数组 ， 我 们 在 包含 它 的 类 型 声明 的 子 程序 的 
活动 记录 中 将 存放 一 个 称 为 内 情 向 量 (dope vector) 的 大 小 固定 的 描述 符 。 内 情 向 量 是 包含 数组 的 大 小 
和 边界 。 这 些 信息 是 在 详细 描述 数组 声明 时 获得 的 。 一 旦 数组 的 内 情 向 量 被 初始 化 ， 我 们 就 可 以 为 数组 
的 每 一 次 出 现 分 配 空间 。 我 们 很 方便 在 运行 时 栈 上 、 当 前 AR 的 上 方 分 配 此 空间 。 事 实 上 ， 可 以 扩展 AR 
以 容纳 动态 数组 。 | 

在 编译 时 刻 ， 在 当前 AR 中 给 每 个 动态 数组 指派 一 个 的 位 置 。 在 运行 时 刻 ， 该 位 置 将 指向 在 AR 末端 
以 外 的 某 个 地 方 为 数组 所 分 配 的 空间 。 动 态 数组 是 间接 访问 的 : 首先 从 AR 中 获得 数组 的 运行 时 地 址 ， 
然后 根据 这 一 地 址 可 以 访问 数组 或 它 的 元 素 。 

为 说 明 这 点 ， 可 以 在 图 9-1 过 程 p 中 添加 以 下 声明 : 

d, e :array(1..N) of integer; 

在 过 程 p 被 调用 时 ， 如 图 9-3 所 示 的 活动 记录 被 压 人 到 运行 时 栈 里 。 数组 声明 在 p 被 调用 后 即 被 详细 说 明 。 
这 意味 要 计算 N， 然 后 初始 化 内 情 癌 量 。 内 情 向 量 含 有 数组 的 大 小 信息 ， 因 此 可 在 运行 时 栈 上 分 配 数组 
d 和 e 的 空间 ， 并 且 指 向 这 些 空间 的 指针 保存 在 AR 中 。 这 一 刻 ， 我 们 得 到 如 图 9-4 所 示 的 AR 结构 。. 


<—— Offset = 28 
«— — Offset = 8 
«—— Offset - 6 
«—— Offset = 5 
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图 9-3 新 版 本 p 的 活动 记录 图 9-4 p 在 声明 清晰 后 的 活动 记录 


一 日 在 其 声明 清晰 以 后 ， 动 态 数 组 的 大 小 也 随 之 固定 下 来 。 此 外 ， 动 态 数组 的 生成 期 和 其 他 任何 局 
部 变量 相同 ， 因 此 ， 通 过 扩展 活动 记录 来 包含 动态 数组 既 简 单 又 有 效 。 

一 些 语 言 提 供 过 程 内 静态 分 配 的 变量 (C 中 的 static, Algol 60 中 的 own)。 这 些 变量 的 值 在 穿越 调 
用 时 必须 加 以 保留 。 同 文字 常量 的 情况 一 样 ， 静 态 变量 被 分 配 到 全 局 位 置 中 而 不 是 在 活动 记录 里。 
Algol 60 甚至 允许 声明 为 own 的 数组 在 编译 时 大 小 不 用 确定 ， 这 就 给 实现 上 带 来 相当 大 的 难度 。 正 如 稍 
后 所 讨论 的 ， 对 于 这 种 对 象 ， 我 们 不 难 在 堆 中 给 它 找到 空间 、 但 是 在 声明 它 的 过 程 被 调用 期 间 ， 如 果 它 
需要 更 大 的 空间 ， 那 么 它 将 不 得 不 拷贝 到 一 个 新 的 能 容纳 下 它 的 地 方 。 那 些 两 个 边界 都 是 动态 的 二 维 数 
组 更 是 难以 处 理 。 

在 一 些 语言 (包括 Ada、Modula-2 和 Simula ) 中 ， 单 个 的 运行 时 栈 已 不 能 满足 要 求 。 这 些 语言 没有 
沿用 子 程序 退出 时 后 进 先 出 的 Algol 模 式 。Ada 和 Modula-2 允 许 控 制 在 进程 间 来 回 切换 ， 这 里 的 进程 就 像 
过 程 一 样 有 自己 的 包含 局 部 和 非 局 部 变量 的 引用 环境 。 事实 上 ,每 一 进程 都 必须 有 它 自己 的 栈 ， 类 似 地 ， 
Simula 中 允许 过 程 作为 协同 例 程 来 调用 ， 因 此 ， 过 程 的 所 有 局 部 变量 都 必须 保留 到 过 程 确 认 终 止 为 止 。 
这 些 语 言 采用 堆 分 配方 式 来 分 配 整个 栈 。 

在 Ada、Simula 和 某 些 LISP 实 现 版 本 中 所 分 析 的 另外 一 个 语言 特性 允许 两 个 进程 共享 一 个 非 局 部 变量 
的 访问 。 而 将 访问 环境 的 共享 部 分 拷贝 到 两 个 进程 的 运行 时 栈 中 是 不 够 的 ， 因 为 在 一 个 进程 修改 非 局 部 
值 的 时 候 ， 另 一 个 进程 应 当 总 看 见 这 个 新 值 。 替 代 的 方法 是 ， 将 栈 建成 一 段 一 段 的 以 便 共享 。 这 种 方法 
有 时 称 为 cactus 栈 《cactus stack)， 因 为 这 种 组 织 形 式 让 人 想起 既 能 从 主 于 上 也 能 从 其 他 枝 于 上 长 出 新 分 枝 
的 树 形 仙人 掌 。 重 要 的 是 ， 语 言 的 设计 必须 保证 共享 的 栈 段 在 所 有 共享 它们 的 进程 终止 以 后 方 可 释放 。 
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9.2.1 显示 表 


活动 记录 常常 通过 指向 它 开始 位 置 的 某 个 寄存 器 来 寻 址 。 然 而 在 运行 期 间 ， 活 动 记录 的 数目 可 能 超 
过 可 用 寄存 器 的 数量 。 例 如 ， 考 虑 图 9-5 中 所 示 的 程序 。 

我 们 可 能 有 如 图 9-6 所 示 的 调用 序列 : | 

我 们 如 何 处 理 这 样 的 调用 序列 呢 ? 幸运 地 是 ， 因 为 有 作用 域 规则 ， 不 是 所 有 的 活动 记录 都 需要 在 同 
一 时 刻 成 为 可 访问 的 。 特 别 地 ， 我 们 一 直 需 要 主 程序 的 AR， 但 它 却 可 以 采用 静态 分 配 。 所 有 的 过 程 和 
函数 都 有 一 个 由 程序 结构 所 确定 的 静态 谈 套 层次 〈static nesting level) (pftsfE EX, q 和 fr 在 层次 2)。 
在 任 一 点 上 ， 依 据 块 结构 规则 ， 任 一 给 定 的 层次 上 只 有 一 个 过 程 能 使 它 的 变量 可 访问 。 我 们 为 每 个 可 能 
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的 静态 嵌 套 层次 分 配 一 个 寄存 器 。( 最 大 婴 套 层次 常常 由 编译 器 来 限制 决定 )。 这 个 寄存 器 集合 称 为 显示 


A (display), 该 表 中 的 每 一 个 寄存 器 称 为 显示 表 和 寄存 器 《display register)。 在 任 一 给 定点 ， 第 i 个 显示 


表 寄 存 器 (表示 为 DLi] ) 将 指向 当前 可 访问 的 、 静 态 嵌 套 层次 为 ;的 AR《〈 若 有 的 活 )。 在 我 们 的 示例 中 ， 
如 果 当 前 我 们 在 过 程 q 中 ， 那 么 我 们 可 能 有 如 图 9-7 所 描述 的 状况 。 


program main is 
procedure p is | 
procedure q is - Call main program 


Call p 
end q; Call s 


procedure r is | Call p 
EE Calis 


OONO BUT = 


end r; li 
end p; Call p 


Call p 
Call q 
end s; Call r 

-- Call q 

begin — main Call r 

20 endmain; 。。。 


procedure s is 





图 9-5 SHARECRNES 图 9-6 程序 main 中 的 过 程 调用 序列 


在 任 一 点 上 ， 许 多 AR 不 能 由 任何 显示 表 寄 存 器 来 寻 址 。 它 们 中 的 局 部 变量 ， 在 那 一 点 ， 也 不 是 直 
接 可 和 寻 址 的 。 当 过 程 返 回 时 ， 显 示 表 寄存 器 被 更 新 ， 先 前 不 能 访问 的 AR 此 时 可 通过 某 些 显示 表 寄 存 絮 
来 寻 址 。 因 此 ， 每 次 调用 必须 为 被 调 过 程 建立 合适 的 显示 表 ， 而 每 次 返回 必须 将 显示 表 恢 复 到 调用 前 的 
情况 。 

一 种 极端 做 法 是 将 整个 显示 表 保存 在 每 个 过 程 的 AR 中 ， 以 便当 过 程 返回 时 所 保存 的 显示 表 可 以 用 
来 恢复 所 有 的 显示 表 寄 存 器 。AR 中 的 “显示 表 区 域 ”的 长 度 可 由 当前 过 程 的 词法 层次 确定 。 我 们 总 是 
留 出 足够 长 的 最 大 区 域 以 容纳 最 大 允许 的 显示 表 。 

幸运 的 是 ， 我 们 不 需要 保存 完整 的 显示 表 。 在 任何 调用 中 仅 保 存 一 个 显示 表 就 足够 了 。 调 用 可 以 是 
到 比 当前 词法 层次 深 一 层 的 过 程 的 调用 (我们 称 之 为 “ 较 高 ", 属于 父 过 程 调用 它 的 直接 子 过 程 的 情况 )， 
也 可 以 是 到 与 当前 层次 相同 的 过 程 的 调用 (属于 兄弟 过 程 之 间 的 调用 )， 或 是 到 任何 较 浅 层次 的 过 程 的 
调用 (我们 称 之 为 “ 较 低 ”， 属 于 内 层 过 程 调用 其 任何 外 层 过 程 的 情况 )。 在 每 种 情况 下 ， 在 被 调用 层次 
上 的 显示 表 寄 存 器 的 值 必须 保存 到 被 调用 者 的 AR 的 显示 表 区 域 中 。 这 个 区 域 可 以 占 一 个 字 长 。 当 调用 
返回 时 ， 这 个 值 必须 恢复 。 把 显示 寄存 器 保存 在 调用 者 的 AR 中 也 可 以 工作 得 很 好 ， 但 那样 的 话 ， 调 用 
者 在 完成 各 种 不 同 层次 的 过 程 的 调用 后 ， 必 须 使 用 不 同 代码 (来 恢复 不 同 层 次 的 显示 表 寄 存 器 )。 因 此 ， 
让 被 调 过程 来 恢复 寄存 器 要 更 容易 一 些 ; 它 只 需 恢复 相同 的 寄存 器 ， 而 不 管 调用 过 程 的 层次 是 多 少 。 

这 种 机 制 在 每 次 调用 后 重建 整个 显示 表 将 其 恢复 到 调用 前 的 状态 ， 即使 其 中 部 分 显示 表 未 被 调用 者 
使 用 。 为 什么 维护 那些 高 层 显示 表 寄 存 器 如 此 重要 呢 ? 考虑 图 9-8 所 示 程 序 。 

假定 有 以 下 过 程 调用 序列 : 

ABCAB'C 

我 们 用 ' 来 标记 被 调 过 程 的 不 同 运行 实例 。 每 次 调用 中 使 用 的 以 及 保存 的 显示 表 值 如 图 9-9 所 示 。 

4 A' 返 回 到 C 时 ， 上 述 方法 仅 将 display[1] 从 A' 更 改 为 A; 而 其 他 显示 表 寄 存 器 已 正确 设置 为 B 和 
C. 尽管 A' 自 身 不 需要 那些 寄存 器 ， 但 由 A' 开 始 的 调用 序列 必须 保存 它们 的 值 ， 以 便 在 A 返回 时 ， 仅 需 
恢复 一 个 寄存 器 便 能 建立 过 程 C 的 引用 环境 。 
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q 的 活动 记录 


| 
<— DI1] 


Pp 的 的 活动 记录 
main 的 活动 记录 
display[3] 


display{2) 
display [1] 


procedure A is 
procedure B is 
procedure C is 


. end C: 


end B; 








图 9-9 显示 表 的 保存 与 恢复 示例 


9.2.2 块 级 与 过 程 级 活动 记录 


像 Algol 60、C、Ada 和 Ada/CS 这 样 的 语言 ， 允 许 块 和 过 程 一 样 ， 拥 有 局 部 声明 的 变量 。 拥 有 局 部 
变量 的 块 可 被 看 成 是 无 参 的 内 联 过 程 ， 因 此 ， 我 们 可 以 为 每 一 个 拥有 局 部 声明 的 块 创建 一 个 新 的 活动 记 


录 。 这 种 方法 需要 更 多 的 显示 表 寄存 器 ， 因 为 包括 
块 以 后 ， 静 态 嵌 套 屋 次 可 以 加 深 许 多 。 此 外 ， 它 使 
得 块 的 执行 开销 很 大 ， 因 为 AR 要 被 压 人 栈 ， 显 示 表 
寄存 器 要 更 新 ， 等 等 。 为 避免 这 些 开 销 ， 有 可 能 仅 
”有 真正 的 过 程 才 使 用 AR， 即 使 在 过 程 中 的 块 也 可 以 
拥有 局 部 声明 。 这 种 技术 称 为 过 程 级 ( procedure- 
level) AR 分 配 ， 与 之 相对 的 是 称 为 块 级 (block- 
level) AR 分 配 ， 即 为 每 个 拥有 局 部 声明 的 块 分 配 相 
应 的 AR。 

过 程 级 AR 分 配 的 中 心思 想 是 ， 过 程 里 的 各 个 
块 中 的 变量 的 相对 位 置 可 以 在 编译 时 被 计算 并 固 
定 下 来 。 这 是 可 以 做 到 的 ， 因 为 块 是 严格 按照 词 
法 顺序 进入 和 退出 的 。 例 如 ， 考 虑 图 9-10 所 示 的 

存放 参数 X、Y 以 及 过 程 级 变量 QQ 的 空间 必须 


在 A 中 始终 是 可 访问 的 。 可 能 需要 为 块 B1 或 B2 中 的 变量 分 配 空间 ， 但 不 必 同 时 分 配 。 类 似 地 ， 块 B3 的 
空间 分 配 也 只 有 当 我 们 位 于 B2 中 时 才能 进行 。 因 此 ， 我 们 可 以 在 编译 时 为 过 程 A 创 建 一 个 包含 在 A 中 声 
明 的 所 有 变量 的 AR。 特 别 地 ，X、Y 以 及 QQ 的 空间 位 置 靠 前 ，D、E 的 空间 可 以 入 、 H 和 I 空间 相互 用 


盖 ， 而 J 可 以 刚好 放置 在 G、H 和 | 之 上 。 
图 9-11 给 出 上 述 过 程 级 活动 记录 中 内 容 的 安排 。 


procedure A (X,Y :in real) is 
QQ : integer; 
begin 
B1: declare 
D,E: reai; 
begin 
end B1; 
B2: declare 


G,H,!: integer; 





图 9-10 有 块 级 声明 的 程序 
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J 的 空间 


G. H. iain 





) 过 程 A 的 AR 
的 结尾 









D、E 的 空间 
X、Y、QQ 的 空间 
«£——— 


图 9-11 过 程 A 的 过 程 级 AR 





过 程 A 的 AR 
的 开始 


9.3 HES} Be 


最 灵活 且 最 昂贵 的 存储 分 配 是 堆 分 配 (heap allocation )。 数 据 对 象 可 以 在 任 一 时 刻 ， 以 任意 次 序 分 
配 和 释放 。 通 常 ， 我 们 需要 一 个 称 为 存储 池 的 堆 。( 请 不 要 将 我 们 这 个 作为 内 存 分 配 池 的 堆 的 定义 与 党 
用 于 从 集合 中 检索 最 小 元 素 的 堆 数 据 结构 混淆 。 不 幸 的 是 ， 这 两 个 定义 均 被 广泛 地 使 用 .) 

在 某 些 语言 里 有 显 式 分 配 堆 空间 的 命令 (如 PL/I 的 allocate ，Pascait 和 Ada 中 的 new)， 但 其 他 一 些 语 
言 ， 如 Snobol 或 LISP 中 以 用 户 语句 的 执行 结果 来 隐 式 地 分 配 堆 空间 (如 ，Str = Str 'XYZ' 或 (CONS A 
B))。 堆 空间 的 分 配 不 是 特别 困难 一 一 我 们 只 是 简单 地 一 直 从 堆 中 分 配 空间 直至 堆 空间 耗 尽 为 止 。 堆 分 
配 复 杂 的 原因 是 由 于 空间 可 以 按 任 意 的 次 序 返 回 到 ( 即 释 放 回 ) 堆 。 这 种 情况 导致 了 许多 不 同 的 堆 释放 
策略 ， 它 们 将 在 下 面 详细 计 论 。 | 

设计 语言 时 的 第 三 种 策略 是 ， 根 本 不 包含 堆 分 配 机 制 ， 无 论 显 式 的 还 是 隐 式 的 。C 语 言 就 是 这 样 做 
的 ， 它 将 存储 分 配 移 到 标准 程序 库 中 (如 例 程 malloc( ) 和 free( ) )。 这 种 方法 允许 程序 库 开 发 商 提供 
针对 特定 应 用 而 调整 的 运行 库 来 替代 一 般 的 内 存 分 配 机 制 。 然 而 ， 它 却 阻碍 了 编译 器 和 运行 时 系统 做 出 
任何 有 效 检查 以 确保 堆 空间 的 正确 管理 。 . 

C++ 语言 引入 一 个 折 中 方案 ， 它 提供 了 显 式 的 new 和 delete 操 作 符 用 于 存储 的 分 配 与 释放 ; 但 这 
些 操作 符 可 以 被 任何 特定 的 类 重 载 。 这 意味 着 程序 员 既 可 以 选择 由 C++ 编 译 器 和 运行 系统 提供 默认 的 内 
存 管理 机 制 ， 又 可 以 自行 提供 应 用 定制 的 存储 管理 机 制 。 


9.3.1 无 空间 释放 


我 们 可 以 选择 和 急 略 空间 释放 。 当 空间 耗 尽 时 ， 程 序 就 停止 运行 。 一 些 Pascal 实 现 《Berkeley 的 Pascal 
解释 器 ) 采用 这 一 策略 。 如 果 大 多 数 堆 对 象 一 旦 分 配 便 始终 在 使 用 的 话 ， 此 方法 也 不 算 太 差 。 它 也 可 以 
应 用 于 大 规模 虚拟 内 存 的 实现 中 ; 不 再 使 用 的 数据 对 象 不 会 扰乱 主 存储 区 。 想 节省 空间 的 程序 员 仍 可 以 
通过 为 每 一 个 对 象 类 型 建立 一 个 将 该 类 型 的 自由 对 象 链接 成 表 的 DisposeObject 过 程 来 管理 空间 的 释放 。 
而 AllocateObject 过 程 试 着 从 自由 表 的 表 头 返回 空间 ; 如 表 为 空 ， 则 它 要 求助 于 一 般 的 堆 分 配 。 


9.3.2 显 式 释 放 


若 我 们 有 显 式 的 分 配 命令 ， 那 我 们 也 可 以 有 显 式 的 释放 命令 (如 Ada 中 unchecked_deallocation, C 
中 free( ) 和 Pascal 中 的 dispose )。 由 用 户 负 责 使 用 释放 命令 来 释放 不 再 需要 的 空间 。 堆 管理 程序 仅 是 记 
住 已 释放 的 空间 ， 并 在 分 配 命令 发 出 后 能 使 之 再 次 可 用 。 这 种 方法 将 最 困难 的 决策 一 一 空间 应 何 时 释 
放 一 一 转移 到 了 用 户 手 中 并 可 能 带 来 灾难 性 的 悬空 指针 错误 (dangling pointer error)。 例 如 ， 考 虑 图 9-12 
中 Pascal 程 序 片段 。 
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在 指针 p 赋 给 q 后 ， 两 者 均 指向 同一 对 象 。 而 在 p 被 释 
放 后 ，q 成 为 悬空 指针 。 通 过 q 进 行 的 赋值 是 非法 的 ， 若 未 var p.q : | real; 
检测 出 来 ， 则 会 带 来 不 可 预知 的 后 果 。 在 少数 的 实现 中 ， new(p); 
&ISUW-Pascal, set Hae Het A Po RU HISEHI E dispose(p) 
用 (参见 第 11 章 )， 但 在 其 他 大 多 数 系统 中 不 对 这 种 错误 进 qf := 1.0: 
行 检测 。 


9.3.3 隐 式 释放 


无 论 采 用 的 是 显 式 分配 还 是 隐 式 分 配 ， 我 们 都 可 以 选择 隐 式 释放 (implicit deallocation) 一 一 即 ， 自 动 
恢复 不 使 用 的 堆 空间 。 这 一 过 程 通常 被 称 为 垃圾 收集 (garbage coliection)。 现 在 有 许多 不 同 的 隐 式 释放 
的 方法 。 
单一 引用 

隐 式 释放 的 方法 之 一 是 要 求 对 任何 堆 对 象 的 引用 ( 即 ， 指 向 该 对 象 的 指针 ) 决 不 多 于 一 个 。 当 这 个 
引用 改变 时 (例如 ， 有 关 赋 值 完 成 或 作用 域 结 束 )， 我 们 可 以 释放 该 对 象 ， 它 的 惟一 引用 也 被 撤销 。 

这 种 方法 相当 容易 实现 ， 但 它 要 求 不 能 存在 多 重 引用 。 因 此 ， 它 最 适合 用 于 简单 数据 类 型 ， 如 字符 
串 ， 但 不 适合 复杂 的 链 式 数据 结构 (例如 图 、 网 络 等 等 )。 尽 管 如 此 ，Ada/CS 中 的 字符 串 实现 可 以 利用 
这 种 方法 ， 我 们 将 稍 后 加 以 讨论 。 | 
引用 计数 

我 们 也 可 以 通过 允许 多 重 引 用 一 个 堆 对 象 且 在 每 个 堆 对 象 中 存放 引用 计数 (reference count) 的 
方法 来 进行 隐 式 释放 ， 如 图 9-13 所 示 。3 引 用 计数 表 
明 指向 该 对 象 的 指针 的 多 少 ; 当 计数 归 零 时 ， 该 对 
象 可 以 被 释放 。 当 一 个 引用 被 建立 、 复 制 或 撤销 时 ， 

我 们 必须 更 新 这 个 引用 计数 。 在 某 些 情 况 下 〔 如 循 图 9 13 Aba FILER 
SER). SIU RAT REM HS, ， 某 些 对 象 也 因 

此 从 不 被 释放 。 ZEN | 

垃圾 收集 

另 一 种 隐 式 释放 的 方法 是 ， 追 踪 所 有 现存 指针 ， 并 递归 标记 所 有 可 访问 的 堆 对 象 。 这 一 过 程 常 被 称 
为 标记 -清除 式 垃 圾 收集 (mark-and-sweep garbage collection ) 。 我 们 从 全 局 指针 变量 和 那些 出 现在 AR 中 
( 局 部 于 子 程序 ) 的 指针 变量 开始 。 我 们 记录 下 这 些 指针 的 出 处 〈 可 能 要 存放 于 辅助 数据 结构 中 )。 对 于 
可 能 包含 指针 的 数据 对 象 ， 尤 其 是 记录 ， 我 们 必须 追踪 其 中 的 指针 。 

在 标记 阶段 之 后 ， 我 们 知道 任何 未 标记 的 对 象 是 不 可 访问 的 并 且 可 以 被 释放 。 随 后 ， 我 们 在 堆 中 进 
行 清 除 ， 收 集 未 标记 对 象 并 送 回 自由 空间 供 以 后 使 用 。 在 清除 阶段 ， 我 们 也 去 除 那 些 尚 在 使 用 的 堆 对 象 
的 标记 。 
标记 -清除 式 垃 圾 收集 功能 非常 强大 ， 但 也 十 分 复杂 。 它 吸引 人 的 地 方 在 于 ， 它 仅 在 堆 空间 耗 尽 时 、 
而 非 每 次 创建 或 撤销 引用 的 时 候 进 行 工 作 。 也 就 是 说 ， 除非 我 们 用 完了 堆 空间 而 去 执行 垃圾 收集 ， 否 则 
我 们 不 需 付出 任何 代价 。 

在 任何 标记 -清除 模式 中 ， 至 关 重 要 的 是 我 们 必须 要 标记 所 有 堆 对 象 。 如 果 漏 掉 了 一 个 指针 ， 我 们 
将 无 法 标记 它 为 可 访问 堆 对 象 ， 也 不 能 在 以 后 正确 地 释放 它 。 对 于 像 LISP 这 样 有 非常 一 致 的 数据 结构 的 
语言 ， 发 现 其 中 所 有 指针 并 不 困难 ， 但 在 像 Simula 和 Ada 这 样 的 语言 中 ， 事 情 却 相当 难 办 ， 因 为 那里 的 
指针 与 数据 结构 中 的 其 他 对 象 混在 一 起 ， 另外 还 存在 着 指向 临时 变量 的 隐 式 的 指针 ， 等 等 。 为 达 此 目的 ， 
我 们 必须 在 运行 时 获得 大 量 的 有 关 数 据 结 构 和 活动 记录 的 信息 。 





图 9-12 Pascal 中 出 现 的 悬空 指针 
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一 个 形式 更 简单 的 垃圾 收集 一 一 其 实 仅 包含 堆 的 清除 一 一 是 可 能 的 ， 如 果 我 们 知道 指向 每 个 堆 对 象 


仅 有 一 个 指针 。 访 技术 非常 适合 于 长 度 可 以 动态 改变 且 因 此 必须 从 堆 中 分 配 的 Ada/CS 的 字符 串 。 


与 其 采用 非常 复杂 的 标记 过 程 ， 我 们 倒 不 如 采用 以 下 的 握手 协议 (handshaking convention). Ht 


依然 指向 堆 对 象 。 每 个 堆 对 象 都 有 一 个 回 指引 用 它 的 单个 指针 的 标题 (header) 域 。 该 过 程 在 图 9-14 中 
说 明 。 


指针 : 





图 9-14 堆 对 象 的 握手 协议 


在 清扫 堆 时 ， 我 们 跟随 标题 域 中 的 指针 并 检查 它 引用 的 位 置 是 否 指 回 到 该 标题 域 。 对 所 有 可 访问 的 
堆 对 象 ， 这 种 担 手 方式 都 将 成 功 。 如 果 一 个 指针 p 已 被 改变 ， 先 前 由 p 引 用 的 堆 对 象 将 仍然 指向 p， 但 p 并 
没有 回 指 ， 这 指示 该 堆 对 象 可 以 被 释放 。 出 现在 活动 记录 中 的 指针 在 该 AR 被 弹出 运行 时 栈 之 后 被 认为 
是 不 可 访问 的 。 对 任何 堆 对 象 ， 如 果 其 标题 域 指 针 指向 当前 栈 顶 以 上 的 地 方 ， 则 它 被 认为 是 不 可 访问 并 
可 以 被 复 用 。 有 可 能 出 现 这 样 的 情况 ， 一 个 AR 从 栈 中 弹出 ， 接 着 另 一 个 AR 被 压 人 栈 并 占据 与 前 者 相同 
的 空间 。 这 种 情况 下 ， 先 前 被 一 个 指针 所 占据 的 空间 现在 可 以 为 其 他 数据 所 和 覆盖， 先前 的 握手 关系 几乎 
肯定 遭 到 破坏 ， 而 这 将 导致 维 对 象 能 被 正确 地 释放 。 还 有 一 种 极 小 的 可 能 性 ， 即 ， 禾 盖 先 前 一 个 指针 所 


.占据 空间 的 新 的 数据 恰好 与 指针 拥有 相同 的 位 模式 。 在 这 种 不 大 可 能 发 生 的 情况 下 ,不 可 访问 的 堆 对 象 


将 不 被 收集 除非 这 个 新 的 数据 改变 它 的 值 。 这 其 实 并 不 是 一 个 问题 一 -我 们 只 是 没有 收集 所 有 不 可 访问 
的 堆 对 象 。 

在 收集 不 可 访问 的 堆 对 象 时 ， 许 多 垃圾 收集 器 会 执行 紧缩 《compaction) 阶段 。 所 有 仍 在 使 用 的 堆 
对 象 被 集中 放 在 一 起 。 这 就 允许 那些 不 可 访问 的 堆 对 象 可 以 合并 成 一 个 单一 的 自由 存储 区 ， 有 利于 分 配 
绞 大 的 数据 对 象 。 如 果 不 执行 紧缩 的 话 ， 可 能 出 现 堆 空 间 分 配器 在 堆 中 拥有 许多 自由 存储 区 ， 但 没有 一 
个 足够 大 的 能 够 满足 需求 的 区 域 。 由 于 分 配 和 释放 操作 ， 扒 可 能 会 变 成 碎片 状 的 (fragmented) ; 紧缩 
操作 将 小 的 碎片 连接 成 更 大 且 更 有 用 的 存储 块 。 

在 标记 -清除 式 垃圾 收集 过 程 中 进行 紧缩 时 ， 需 要 对 所 有 可 访问 的 指针 进行 第 二 遍 扫描 以 便 重 置 指 
针 ， 使 其 指向 它们 所 引用 的 对 象 的 新 地 址 。 而 在 采用 担 手 协议 时 ， 事 情 依然 很 简单 ， 因 为 每 个 堆 对 象 中 
回 指 的 那个 指针 的 标题 指针 也 必须 重新 设置 。 然 而 存在 着 一 种 危险 。 如 前 所 述 ， 在 运行 时 栈 中 看 似 一 个 
指针 的 东西 实际 上 却 是 一 个 非 指 针对 象 , 只 是 因为 这 个 数据 对 象 覆盖 了 曾经 被 一 个 有 效 指针 占据 的 位 置 。 
此 时 进行 紧缩 ， 我 们 可 能 会 错误 地 对 这 个 不 是 指针 的 位 置 进行 了 修改 。 因 此 ， 较 为 明智 的 做 法 是 紧缩 那 
些 由 全 局 指针 所 引用 的 堆 对 象 ， 而 全 局 分 配 的 指针 是 不 会 被 其 他 对 象 所 覆盖 的 。 


9.3.4 管理 堆 空 间 


在 所 有 存储 恢复 模式 以 及 所 有 提供 堆 分 配 的 语言 中 ， 我 们 必须 小 心 应 对 未 初始 化 指针 
(uninitialized pointer)。 我们 要 么 必须 在 创建 每 个 指针 时 将 其 初始 化 为 一 个 空 什 (Simula 采 用 该 方法 )， 
要 么 必须 在 使 用 指针 前 对 其 进行 有 效 性 检查 (UW-Pascal 采 用 该 方法 )。 如 果 不 这 样 做 ， 则 我 们 可 以 通过 
无 效 指针 来 引用 (修改 、 或 释放 ) 几乎 任何 一 块 存储 区 (如 程序 正文 段 、 栈 空间 、 文 字 常 量 区 、 等 等 )。 

如 果 同 时 人 允许 分 配 与 释放 ， 无 论 它 们 是 隐 式 的 还 是 显 式 的 ， 堆 管理 程序 都 应 当 按 需 分 配 大 小 可 变 的 
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空间 块 并 接收 返回 的 空间 块 。 就 分 配 而 言 ， 总 有 几 个 可 以 满足 分 配 需 求 的 空间 块 。 最 佳 适 配 (best-fit) 
方法 从 中 挑选 那个 可 以 使 空间 浪费 减 至 最 小 的 块 ， 如 果 我 们 使 用 它 的 一 部 分 用 于 分 配 。 然 而 ， 这 种 方法 
通常 效率 不 高 ; 且 因 此 增加 了 很 小 的 ， 可 能 也 是 无 用 的 自由 存储 块 。 首 次 运 配 (first-fit) 方法 挑选 第 一 
个 满足 需求 的 自由 块 而 不 管 浪费 多 少 空间 。 这 种 方法 虽 好 ， 但 如 果 每 次 分 配 总 是 从 堆 开 始 的 地 方 搜索 ， 
那么 较 小 块 将 趋 于 在 堆 前 面 的 部 位 聚集 。 搜 索 合适 的 自由 空间 块 的 平均 时 间 为 自由 块 数量 的 一 半 。 我 们 
推荐 使 用 的 方法 是 循环 首次 适 配 (circular first fit) 方法 ， 该 方法 也 像 首次 适 配 法 那样 搜索 、 分 配 自 由 
块 ， 只 不 过 每 次 的 搜索 不 是 从 堆 开 始 的 地 方 而 是 从 上 次 搜索 结束 时 的 位 置 开 始 的 。 通 常 ， 仅 需 少许 几 次 
搜索 即 可 完成 分 配 。 


记录 堆 状 态 的 合理 的 数据 结构 是 双 链 表 ， 可 以 把 指向 自由 块 的 指针 组 放 入 链表 中 。 每 个 块 ， 无 论 是 


自由 块 还 是 在 使 用 的 块 ， 其 第 一 个 字 和 最 后 一 个 字 被 保留 分 别 用 于 指示 它 的 状态 : 自由 或 忙 ， 和 它 的 长 
度 。 在 需要 自由 块 时 ， 我 们 从 上 次 搜索 结束 的 地 方 开始 搜索 双 链 表 直 至 发 现 合 适 的 块 。 如 果 需 要 ， 这 个 
块 也 可 以 再 分 成 一 个 新 的 状态 为 忙 的 块 和 一 个 新 的 自由 块 。 若 大 小 正 合适 ， 则 整个 块 将 从 双 链 自由 表 中 
摘除 。 当 块 返回 自由 空间 时 ， 它 试图 同 在 它 前 后 的 块 合并 如 果 它 们 都 是 自由 空间 的 话 ， 然 后 该 块 加 入 到 
自由 表 中 。 这 种 方法 被 称 为 边界 标签 (boundary tag). | 

循环 首次 适 配 是 比较 好 而 且 通 用 的 方法 ， 但 程序 员 们 经 常 仅 需要 分 配 少量 的 不 同 大 小 的 块 。 尽 管 编 
译 器 可 能 不 知道 全 部 块 的 大 小 (如 字符 串 ), 但 它 还 是 知道 不 少 块 的 大 小 《例如 ， 为 记录 分 配 的 空间 )。 
因此 ， 从 不 同 的 堆 中 分 配 大 小 不 同 的 块 比 从 惟一 的 全 局 堆 中 进行 分 配 可 能 效率 更 高 。 于 是 ,位 图 (bit 
map) 被 用 来 指示 堆 中 哪 块 区 域 是 自由 的 。 即 ， 在 固定 大 小 的 对 象 堆 中 的 每 个 对 象 均 被 映射 为 位 图 中 的 
一 位 以 表示 它 是 已 分 配 的 还 是 自由 的 。 因 为 块 较 小 ， 所 以 设 有 浪费 空间 的 危险 。 


9.4 内 存 中 的 程序 布局 


既然 我 们 已 经 讨论 了 编译 器 使 用 的 运行 时 存储 组 织 ， 现 在 可 以 考虑 一 个 已 编译 的 程序 在 内 存 中 是 如 
何 布局 的 。 有 许多 布局 模式 ， 图 9-15 给 出 了 一 个 适合 Pascal 和 Ada/CS 的 布局 图 。 

保留 区 是 由 目标 计算 机 系统 留 作 特殊 用 途 的 内 存 区 ， 在 一 些 机 器 上 ， 寄 存 器 和 操作 数 栈 会 映射 到 保 
留 区 。 编 译 器 生成 的 程序 代码 采用 静态 分 配 且 通 常 是 只 读 的 。 文 字 常 量 池 包含 出 现在 程序 中 所 有 文字 党 
量 运行 时 的 表示 。 此 内 存 段 也 采用 静态 分 配 且 是 只 读 的 。 全 局 数据 段 包含 所 有 的 全 局 和 静态 变量 。 它 采 
用 静态 分 配 且 是 可 写 的 。 接 下 来 是 运行 时 支持 模块 的 库 模 块 〈 输 入/ 输出、 内存 管理 、 剖 析 和 调试 例 程 、 
等 等 )。 分 块 编译 的 子 程序 和 包 也 可 以 放 在 这 里 。 这 些 模块 中 的 每 一 个 通常 和 主 程序 一 样 也 拥有 程序 代 
码 段 、 文 字 常 量 池 和 静态 数据 段 。 

库 模 块 和 分 块 编译 的 模块 作为 在 主 程序 中 出 现 的 外 部 引用 的 结果 而 被 链接 器 或 加 载 器 包含 进来 。 链 
接 器 或 加 载 器 必须 确保 正确 重 定位 在 包括 主 程序 在 内 的 代码 段 中 出 现 的 所 有 地 址 引用 。 交 又 模块 (外 部 ) 
引用 ， 也 必须 被 解析 到 正确 的 地 址 。 链 接 器 或 加 载 器 也 负责 适当 地 将 程序 段 编组 并 有 序 地 放 入 内 存 中 。 
当 数据 段 和 程序 代码 段 被 生成 后 ， 它 们 被 赋予 相对 某 个 特定 重 定位 单元 的 偏 移 值 。 这 些 偏 移 定 义 了 重 定 
位 单元 的 内 部 结构 。 

在 静态 分 配 的 程序 段 被 分 配 内 存 位 置 后 ， 剩 余 的 内 存 被 划分 为 两 个 动态 结构 一 一 栈 和 堆 。 程 序 开始 
运行 时 ， 栈 和 堆 被 初始 化 。 通 常 ， 栈 刚好 开始 于 静态 分 配 的 程序 段 之 上 ， 向 高 地 址 方向 增长 。 而 堆 则 从 
地 址 最 高 端 开始 ， 向 较 低地 址 方 问 增长 。 栈 和 堆 一 旦 相遇 ， 会 产生 内 存 使 用 冲突 ， 因 此 ， 每 一 个 延伸 栈 
或 堆 的 操作 都 必须 检查 是 否 存在 这 种 冲突 。 一 旦 发 生 冲 突 ， 则 可 能 要 调用 垃圾 收集 程序 ， 包 括 内 存 紧 缩 ， 
来 分 离 这 两 种 结构 。 

其 些 计算 机 体系 结构 ， 如 VAX 和 Intel 8086， 采 用 段 式 存储 。 即 ， 在 这 些 机 器 中 可 用 内 存 将 分 成 许 
多 不 同 的 段 ， 一 些 用 于 程序 代码 ， 另 一 些 用 于 数据 。 代 码 段 是 只 读 的 且 可 用 于 存放 程序 代码 和 文字 常量 
池 。 不 同 的 数据 段 可 用 作 栈 和 堆 ; 这 样 就 消除 了 冲突 的 可 能 性 。 
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«— —— 地 址 最 高 端 


堆 空 间 (最 大 地 址 ) 










为 库 和 分 离 编译 的 
模块 使 用 的 静态 数 
WB. CES AA 
程序 代码 










«— — — (最 小 地 址 ) 


图 9-15 典型 的 程序 内 存 布局 


基 些 计算 机 上 使 用 操作 数 栈 而 不 是 寄存 器 来 执行 算术 运算 。 可 以 借助 运行 时 AR 栈 的 栈 顶 来 存放 
操作 数 ， 但 这 样 做 不 是 很 方便 ， 因 为 当 计 算 操作 数 和 表达 式 时 可 能 必须 在 栈 中 弹出 或 压 入 活动 记录 。 
因此 ， 更 简单 的 做 法 是 ， 如 果 需 要 ， 可 以 给 单独 的 程序 段 分 配 一 个 操作 数 栈 。 如 果 可 以 确定 操作 数 栈 
的 最 大 深度 ， 则 这 种 分 配 将 很 容易 做 到 。 操 作 数 通常 在 跨越 语句 时 不 会 保留 在 操作 数 酰 上 ， 除 非 表 达 
式 中 出 现 函 数 调用 。 在 每 条 语 名 的 代码 生成 后 ， 该 语句 所 需 的 栈 的 深度 可 以 通过 检查 入 栈 和 出 栈 完成 
的 顺序 来 获得 。 可 以 计算 出 函数 中 任意 一 条 语句 所 需 的 栈 的 深度 。 在 表达 式 中 出 现 函 数 调用 时 可 以 使 
用 该 值 。 除 非 函数 调用 是 递归 的 ， 否 则 我 们 可 以 计算 出 操作 数 楼 的 最 大 边界 并 用 它 来 为 操作 数 栈 分 配 
点 间 。 如 果 发 生 递 归 函 数 调 用 ， 可 能 有 必要 使 用 活动 记录 栈 存 放 操作 数 或 为 操作 数 栈 指定 一 个 任意 大 
小 的 边界 。 | 

如 果 编 译 器 被 设计 用 于 加 载 -运行 操作 ， 如 大 多 数 Ada/CS 的 工程 编译 器 那样 ， 内 存 中 的 程序 布局 将 
波 显著 改变 。 程 序 和 数据 将 被 分 配 地 址 ， 且 它们 可 以 在 生成 的 时 候 就 被 加 载 到 内 存 中 。 这 里 没有 明显 的 
链接 和 加 载 阶段 ， 因 此 ， 有 利于 减少 重 定位 地 址 和 解析 交叉 模块 引用 的 需求 。 分 块 编译 很 少 被 加 载 - 运 
行 式 编译 器 支持 。 因 此 我 们 只 关注 以 何 种 方式 把 库 模 块 包括 进来 。 有 两 种 方式 较 有 吸引 力 。 我 们 可 以 把 
所 有 的 库 例 程 做 成 自重 定位 (self-relocating) 的 ， 这 意味 着 这 些 例 程 的 编写 方式 使 得 它们 无 论 被 加 载 到 
哪里 都 可 以 正确 运行 。( 这 样 的 代码 通常 被 称 为 位 置 无 关 的 (position-independent) 代码 。) 这 一 所 可 以 
通过 使 所 有 地 址 引用 都 相对 于 某 个 基 址 寄存 器 (在 运行 时 加 载 该 例 程 的 起 始 地 址 ) 或 相对 于 程序 计数 寄 
存 器 〈 如 果 该 机 器 体系 结构 使 用 这 种 寄存 器 的 话 ) 来 做 到 。 

交叉 模块 引用 通过 使 用 转移 向 量 (transfer vector) 来 处 理 。 从 主 程序 中 直接 或 间接 引用 的 库 模块 中 





每 一 个 入 口 点 都 被 赋予 分 配 在 文字 常量 池 里 的 转移 向 量 中 的 一 个 位 置 。 在 运行 时 转移 向 量 将 包含 赋予 相 
应 人 口 点 的 地 址 。 对 库 模块 人 口 点 的 所 有 引用 都 成 为 通过 转移 向 量 的 间接 引用 。 我 们 并 不 生成 直接 转移 
到 OpenFile 例 程 的 代码 ， 而 是 将 一 个 固定 位 置 p 赋 予 转 移 向 量 中 的 OpenFile 条 目 并 生成 一 个 通过 位 置 p 
进行 的 间接 转移 。 当 包含 OpenFile 的 库 模 块 被 加 载 时 ， 我 们 用 正确 的 地 址 对 p 进 行 初始 化 。 

如 果 库 例 程 集 较 小 ， 像 在 Pascal 和 Ada/CS 中 那样 ， 则 有 可 能 使 用 一 种 更 为 简单 的 方式 一 一 我 们 简单 
地 把 它们 全 部 加 载 到 固定 位 置 上 。 我 们 假定 整个 运行 时 支持 库 总 是 处 于 固定 位 置 上 ， 或 许 它 恰好 挨 着 该 
体系 结构 所 保留 的 位 置 。 因 为 库 例 程 总 是 在 相同 的 地 方 ， 我 们 可 以 事先 对 其 进行 重 定位 ， 这 样 加 载 到 内 
存 中 的 便 是 这 些 例 程 的 可 执行 的 二 进 制 映像 。 交 又 模 块 的 引用 也 很 简单 。 库 例 程 总 是 被 加 载 到 相同 的 位 
置 ， 我 们 可 以 在 编译 时 维护 一 张 人 口 点 地 址 表 。 不 需要 间接 跳 转 。 如 果 我 们 想 调 用 OpenFile， 我 们 可 以 
查找 赋予 它 的 地 址 并 在 为 该 调用 所 生成 的 代码 中 使 用 这 个 地 址 。 

最 后 ， 如 果 我 们 在 生成 指令 和 数据 时 将 它们 加 载 到 内 存 中 ， 则 无 法 将 文字 常量 和 全 局 变量 放 到 紧 临 
程序 段 之 上 的 内 存 段 中 。 问 题 在 于 ， 在 生成 文字 常量 和 全 局 变量 时 ， 我 们 还 不 知道 程序 段 将 会 有 多 大 ， 
因为 整个 程序 还 没有 被 编译 完 。 作 为 选择 ， 可 以 把 文字 常量 和 全 局 变量 分 配 到 同一 个 程序 段 中 并 从 最 高 
内 存 地 址 开始 向 低地 址 方向 填充 该 段 。 和 往常 一 样 ， 我 们 从 低 内 存 地 址 开始 填充 程序 段 。 在 程序 和 数据 
段 都 被 填充 之 后 ， 剩 作 的 空间 被 分 给 栈 和 堆 。 这 将 导致 图 9-16 中 的 程序 布局 。 


所 一 一 地 址 最 高 端 
(最 大 地 址 ) 


地 址 最 低 端 
(最 小 地 址 ) 


图 9-16 加 载 - 运 行 式 编译 器 的 程序 布局 





9.5 静态 链 徐 和 动态 链 知 


在 本 节 中 我 们 考虑 一 种 可 用 来 替代 显示 表 访 问 活动 记录 的 方法 。 有 时 我 们 无 法 或 不 愿意 分 配 那么 多 
寄存 器 用 作 显 示 表 寄存 器 ， 作 为 替代 .， 可 以 使 用 通常 称 为 活动 寄存 器 (activation register) 或 活动 指针 
(activation pointer) 的 单一 的 寄存 器 ， 它 指向 运行 时 栈 中 最 上 面 的 活动 记录 。 所 有 AR 的 设计 (通常 在 偏 
移 0 处 ) 包含 一 个 指向 直接 包围 过 程 所 对 应 的 AR 的 指针 。 这 个 指针 称 为 静态 链 〈static link), AAEE 
映 了 过 程 和 函数 的 静态 幅 套 结构 。 另 一 个 指针 (也 在 AR 中 的 固定 偏 移 处 ) 称 为 动态 链 (dynamic link), 
指向 运行 时 栈 中 恰好 位 于 当前 AR 下 面 的 那个 AR。 

由 任意 AR 中 开始 的 静态 链 敌 所 包含 的 信息 与 显示 表 中 的 信息 相同 。 事 实 上 ， 一 个 静态 链 往 可 被 认 
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为 是 显示 表 的 另 一 种 实现 。 如 果 我 们 当前 在 层次 为 i 的 过 程 里 , 活动 指针 引用 与 D[i] 相 同 的 AR。 进一步 ， 
此 AR 中 的 静态 链 指 向 D[i-1] 所 指 的 位 置 。 通 过 从 最 顶端 的 AR 追 踪 j 次 静态 链 ， 我 们 可 以 到 达 由 D[i-j] 
所 引用 的 AR。 在 必须 访问 非 局 部 变量 时 ， 编 译 器 生成 追踪 静态 链 适当 次 数 的 代码 ， 而 那个 次 数 在 编译 
时 可 知 。 
动态 链 将 例 程 的 AR 与 它 的 调用 例 程 的 AR 相 链 接 。 当 从 调用 返回 时 ， 这 些 链 可 用 来 恢复 活动 指针 。 
ifo BEE FURR ER HAR (static chain)。 类 似 地 ， 动 态 链 序 列 被 称 为 动态 链 廊 (dynamic chain). 
例如 ， 考 虑 图 9-17 所 示 的 程序 框架 。 








program Main is 
procedure P is 
procedure R is 
-- Body of R 
end R; 
begin —— P 
R: 


end P; 


(Qo -4o0U01&0tn- | 


procedure Q is 
begin 
P; 
end Q; 
begin -— Main 
Q: 


end Main: 


图 9-17 一 个 程序 框架 


从 Main 开 始 ，Q 被 调用 ，Q 调 用 P， 而 P 又 调用 R。 当 我 们 处 于 第 4 行 的 R 中 时 ， 得 到 如 图 9-18 所 示 的 
由 静态 链 科 和 动态 链 笠 链接 在 一 起 的 AR 序列 。 静 态 链 总 是 指示 当前 过 程 静态 地 嵌 套 其 中 的 那个 过 程 所 
拥有 的 AR。 动 态 链 总 是 指示 动态 地 调用 当前 过 程 的 过 程 所 拥有 的 AR。 


R 的 活动 记录 
(动态 链 ) 
EG Ax pi 
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一 一 活动 指针 





P 的 活动 记录 


(动态 链 ) 
(静态 链 ) 


Q 的 活动 记录 
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图 9-18 HAR ASDA SERA DAI 
{i FHA ARERR T BEA Eb RR SCRE, AUER SRR. FEWE, 通常 这 不 像 它 最 





初 看 起 来 那么 昂贵 。 在 许多 程序 中 ， 多 数 的 数据 引用 要 么 是 指向 局 部 数据 ， 要 么 指向 全 局 数据 ( 即 , m 


向 最 内 层 或 最 外 层 活 动 记录 )， 而 且 这 种 引用 特别 有 效 。 例 如 ， 对 Simula 67 程 序 所 做 的 一 个 广泛 的 引用 
模式 的 研究 (Magnusson 1982) 发 现 全 部 引用 中 至 少 80% 是 对 处 于 最 外 层 的 变量 或 局 部 变量 的 引用 。 另 
外 17% 的 引用 是 对 直接 外 围 块 中 的 局 部 变量 的 引用 。 局 部 数据 由 活动 指针 所 指向 ; 全 局 数据 是 静态 的 ， 
实际 上 不 需要 通过 静态 链 负 引用 。 因 此， 只 有 很 少 的 引用 实际 上 需要 追踪 静态 链 焦 ， 并 且 其 中 的 大 多 数 
引用 将 仅 需 要 一 层 这 样 的 间接 访问 。 一 些 设计 用 来 支持 类 Algol 语 言 的 机 器 提供 对 静态 链 敌 的 硬件 支持 。 
特别 地 ， 在 这 种 机 器 上 ， 数 据 通过 (ChainLength，Offset) 对 来 寻 址 访问 。Offset， 和 以 前 一 样 ， 是 相对 
于 AR 开始 位 置 的 偏 移 。ChainLength 是 为 得 到 正确 的 AR 的 所 必需 的 追踪 静态 链 灸 的 次 数 
(ChainLength = 0 意味 着 使 用 由 活动 指针 所 指 的 最 顶层 的 AR )。 该 寻 址 模式 非常 便于 使 用 ; 给 定 上 述 引 
用 模式 以 及 硬件 支持 ， 它 几乎 可 以 和 显示 表 机 制 同样 高 效 。 然 而 ， 这 种 或 其 他 要 求 通过 内 存 引 用 而 不 是 
寄存 器 引用 来 获取 AR 指针 的 机 制 在 某 种 程度 上 总 是 效率 不 高 的 。 


96 形式 过 程 


形式 过 程 就 是 将 子 程序 作为 参数 传递 给 另 一 个 子 程序 。 子 程序 调用 的 实现 细节 将 在 第 13 章 里 讨论 。 
在 本 节 中 ， 我 们 将 关注 形式 过 程 对 通过 显示 表 或 静态 链 短 和 动态 链 镁 进行 的 AR 访问 的 影响 。 

形式 过 程 参数 实现 时 有 一 定 的 技巧 ， 因 为 每 一 个 形式 过 程 必须 携带 相关 的 环境 (environment)。 这 
个 环境 就 是 形式 过 程 执行 所 必需 的 可 访问 的 AR 集合 。 有 时 我 们 称 这 个 包含 环境 的 AR 集合 为 闭 包 
(closure)。 一 个 环境 在 子 程序 首次 创建 时 即 被 绑 定 ， 即 ， 在 它 的 声明 被 详细 描述 的 时 候 。 声明 的 详细 描 
述 发 生 在 程序 执行 、 控 制 流 进入 包含 它 的 块 或 过 程 的 时 候 。 这 个 环境 可 能 与 子 程序 最 终 通过 它 的 形式 过 
程 名 字 来 调用 时 的 环境 有 很 大 的 差别 。 使 用 子 程序 创建 时 定义 的 引用 环境 ， 我 们 在 术语 上 称 为 静态 绑 定 
(static binding) ; 使 用 最 后 调用 点 的 环境 在 术语 上 则 称 为 动态 绑 定 〈dynamic binding). Algol 60 和 它 后 
继 语 言 都 采用 静态 绑 定 。 早 期 的 LISP 实 现 采 用 动态 绑 定 ， 而 后 来 的 一 些 实现 ， 包 括 Common LISP 和 
Scheme ， 采 用 静态 绑 定 。 
"d procedure A(F); procedure F; 

n 

F(1) 


procedure B; 

begin 
procedure G(X); Integer X; 
begin 


1 
2 
3 
4 
5 
6 
7 
8 
9 


goto L; 





图 9-19 形式 过 程 参数 的 示例 


考虑 图 9-19 中 的 Algol 60 程 序 片段 。 当 实 参 过程 G 在 第 14 行 乡 定 到 形式 过 程 F 的 时 候 ， 它 的 环境 ， 绑 
定 于 G 在 B 的 人 口 处 创建 的 时 候 ， 是 BO 和 B。 当 它 作 为 形式 过 程 F 在 第 4 行 被 调用 时 ， 此 时 使 用 的 环境 却 
是 BO 和 A。 但 是 ， 当 G 执 行 时 它 必须 访问 B 的 局 部 变量 ， 即 使 它们 在 它 的 调用 点 (第 4 行 ) 是 不 可 访问 的 。 
因此 ， 我 们 必须 能 改变 在 形式 过 程 被 调用 时 的 环境 并 在 返回 时 恢复 它们 。 
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6 AA; 


我 们 甚至 还 必须 处 理 跳 出 形式 过 程 的 goto 语 句 ， 如 第 11 行 所 示 。goto 语 句 要 想 成 为 合法 的 ， 它 的 
跳 转 目标 就 必须 在 执行 环境 中 可 见 ， 但 是 运行 时 栈 上 可 能 有 目标 AR 的 多 个 实例 。 这 些 实例 中 只 有 一 个 
在 当前 环境 ， 且 这 个 是 应 当 继续 执行 的 那个 。 所 有 其 他 中 间 的 AR 必须 被 抛弃 就 像 它 们 的 过 程 已 经 返回 
一 样 。( 我 们 将 会 看 到 ， 在 执行 非 局 部 goto 后 ， 有 关 寄 存 器 与 显示 表 的 重建 可 能 非常 复杂 。) 

巧合 的 是 ， 静 态 链 佬 使 形式 过 程 的 实现 相当 简单 ; 显示 表 则 反之 。 我 们 将 讨论 这 两 种 方式 。 


9.6.1 PASHA 


我 们 已 经 了 解 了 如 何 建 立 静态 链 筷 。 当 一 个 常规 的 ( 非 形式 的 ) 过 程 被 调用 时 ， 编 译 器 知道 调用 者 
和 被 调 者 之 间 的 词法 层次 差 。 这 个 差 值 表明 被 调 者 的 静态 链 秘 应 指向 哪里 。 如 果 差 值 d 为 -1 (被 调 者 比 
调用 者 在 层次 上 要 深 1 层 )， 则 被 调 者 的 静态 链 敌 应 指向 调用 者 。 和 否则 ， 被 调 者 的 静态 链 徐 是 调用 者 的 静 
态 链 徐 在 去 除 d 个 链 之 后 的 一 个 拷贝 。 

对 于 形式 过 程 而 言 ， 它 的 静态 链 铸 不 能 在 编译 时 确定 。 相 反 ， 我 们 要 求 将 静态 链 徐 作为 形式 过 程 的 
一 部 分 来 传递 。 于 是 ， 当 形式 过 程 最 终 被 调用 时 ， 它 的 静态 链 铸就 已 经 可 用 了 ， 且 存放 在 调用 者 活动 记 
录 中 作为 调用 者 所 知晓 的 此 参数 信息 的 一 部 分 。 | 

当 一 个 过 程 首 次 作为 形式 过 程 传递 时 ， 如 A 将 B 传 递 给 C， 这 里 的 实 参 B 是 常规 的 过 程 。 和 以 前 一 样 ， 
编译 器 计算 调用 者 A 和 B 之 闻 的 词法 层次 差 ， 且 生成 那些 只 有 在 直接 调用 B 时 才 使 用 的 可 建立 B 的 静态 链 
的 代码 。 调 用 者 A 将 B 的 代码 指针 和 那个 B 的 静态 链 一 起 传递 给 C。 而 C 把 这 两 个 有 关 B 的 重要 信息 保留 在 
自己 的 AR 中 。 如 果 C 用 相应 的 形 参 名 字 调 用 B， 则 它 会 把 它 保留 的 静态 链 交 给 B; 如 果 C 青 次 将 B 传 递 男 
外 的 例 程 ， 那 么 它 也 必须 一 并 传递 B 的 静态 链 。 

再 次 考虑 图 9-19 中 的 示例 。 开 始 的 时 候 ，B0 执 行 ; 接着 调用 B， 进 入 程序 的 第 14 行 。 此 时 运行 时 栈 
的 情况 见 图 9-20。 





图 9-20 调用 B 后 的 运行 时 栈 


G 的 环境 由 指向 B 的 AR 的 指针 表示 。 然 后 ，A 被 调用 ， 进 入 程序 的 第 4 行 。 现 在 运行 时 栈 的 情况 由 图 
9-21 所 示 。 | 


BAS BERR PORE 
图 9-21 调用 A 后 的 运行 时 栈 








| dEHWRWbdaE. 00000000000 197 


这 里 ， 通过 对 应 的 形 参 名 字 F 来 调用 的 G 即 将 被 调用 。 G 的 指向 B 的 AR 的 静态 指针 可 用 来 建立 静态 
链 ， 如 图 9-22 所 示 。 在 正常 返回 时 ， 我 们 依然 使 用 动态 链 来 恢复 调用 者 的 环境 。 


[d] 


ze BER fh SER 
图 9-22 调用 G 后 的 运行 时 栈 


从 G 中 跳 回 到 B 里 的 语句 goto L 使 用 静态 链 来 寻找 正确 的 B 的 实例 (这 里 ， 只 能 有 一 个 ,但 一 般 情 
况 下 ， 可 能 有 多 个 )。goto 执 行 后 ， 运 行 时 栈 的 情况 如 图 9-23 所 示 。 | 309 





图 9-23 goto L 执 行 后 的 运行 时 栈 310 


这 种 实现 形式 过 程 的 方法 简单 、 有 效 。 然 而 ， 它 却 要 忍受 静态 链 搁 所 特有 的 低 效 率 访问 。 此 时 ,过 
程 调用 不 会 比 以 前 更 复杂 ; 导出 和 传递 静态 指针 也 不 会 比 保存 一 个 显示 表 寄 存 器 需要 做 更 多 的 工作 。 


9.6.2 显示 表 


我 们 可 以 修改 显示 表 机 制 以 支持 形式 过 程 。 当 一 个 
过 程 被 绑 定 到 形式 参数 时 ， 我 们 将 所 有 显示 表 寄 存 器 的 
内 容 连同 该 过 程 的 地 址 一 起 传递 ， 如 图 9-24 所 示 。 所 传 
递 的 数据 块 大 小 由 词法 储 套 的 最 大 深度 决定 ， 而 这 受 限 
于 显示 表 寄 存 器 数量 。 另 外 ， 还 有 一 个 名 为 restore_AR 
的 全 局 变量 或 寄存 器 用 来 从 形式 过 程 返回 时 恢复 调用 者 
的 环境 。 现 在 ， 就 在 形式 过 程 被 调用 前 ， 我 们 可 以 : 图 9-24 使 用 显示 表 的 形式 过 程 描述 符 
。 把 restore_AR 的 当前 值 保存 到 调用 者 的 AR 中 。 . 
。 把 显示 表 寄 存 器 (Dp0],--,D[Max]) 的 当前 值 保存 到 调用 者 的 AR 中 。 
。 让 restore AR 指 向 当前 AR。 | 
。 将 当前 显示 表 的 值 替换 为 先前 传人 的 形式 过 程 描述 符 中 的 显示 表 的 值 。 
。 通 过 入 口 地 址 调用 形式 过 程 。 
从 形式 过 程 返 回 时 ， 我 们 可 以 : 










”DILMax] 的 值 
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* 利用 restore_AR 重 新 装 入 调用 者 的 显示 表 。 

。 恢复 先前 的 restore AR 的 值 。 

形式 过 程 的 开销 (交换 整个 显示 表 ) 也 仅 当 在 我 们 使 用 它 的 时 候 才 会 有 。 普 通 的 过 程 调用 其 表现 就 
好 像 形式 过 程 不 存在 一 样 。 

只 要 每 个 形式 过 程 能 正常 返回 ， 上 述 方法 就 是 可 行 的 。 为 此 ， 我 们 要 么 不 允许 goto 语 句 跳 出 子 程 
序 ， 那 样子 程序 在 它 被 调用 时 就 不 必 知 道 (或 关心 ) 它 是 作为 形式 过 程 还 是 普通 过 程 被 调用 的 ; BAK 
们 必须 以 某 种 代价 来 扩展 相应 的 技术 以 处 理 跳出 子 程序 的 goto 语 句 。 这 种 扩展 可 通过 采用 静态 链 簇 来 保 
存 和 恢复 显示 表 的 混合 式 方 法 来 实现 。 但 是 ， 这 会 增加 普通 过 程 调用 的 开销 。 

另外 一 种 允许 goto 语 句 跳出 形式 过 程 的 方法 是 去 模拟 一 系列 的 过 程 返回 。goto 语 名 执行 后 的 局 部 
环境 的 AR 所 对 应 的 运行 时 栈 中 的 位 置 总 是 很 容易 确定 。 如 果 标 号 L 在 词法 层次 i 处 声明 ， 那 么 语句 goto 
L 执 行 时 必须 将 其 执行 后 的 局 部 环境 的 AR 恢 复 为 由 D[i] 指 向 的 AR。 因 此 ，goto 语 句 的 代码 将 反复 执行 
过 程 返 回 所 需 的 动作 直到 活动 指针 指向 正确 的 AR。 其 中 一 些 返回 动作 较 简 单 ， 仅 涉及 恢复 一 个 被 保存 
的 显示 表 寄 存 器 。 然 而 ， 那 些 从 形式 过 程 的 返回 将 涉及 恢复 整个 显示 表 。 这 种 技术 会 使 跳出 过 程 的 goto 
语句 执行 得 很 慢 , 但 是 非 局 部 的 goto 总 得 承担 恢复 寄存 器 和 显示 表 值 的 开销 , 且 这 笔 开 销 经 常 不 会 太 小 。 


”总 之 ， 非 局 部 goto 一 般 仅 被 程序 员 用 于 异常 情况 中 ， 在 那里 执行 速度 已 不 是 那么 至 关 紧 要 的 了 《例如 ， 


在 出 错 事 件 中 放弃 某 个 操作 )。 
9.6.3 一 些 看 法 


形式 过 程 中 复杂 的 环境 交换 上 暗示 着 这 样 的 过 程 一 般 都 是 很 难 理解 的 。 例 如 ， 图 9-25 中 的 Pascal 程 序 
会 打印 什么 样 的 答案 呢 ? 


program Main(Output); 
function f(Level : Integer; function Arg : Integer) : Integer; 
function Local : integer; 
begin {Local} 
Local := Level 
end; (Local) 


begin {f} 
if Level > 10 then 
f := f(Level - 1, Local) 
else if Level » 1 then 
f := f(Level - 1, Arg) 
el 


se 
f := Arg { actually call Arg() } 


end; (f) 
function Dummy : integer; 
begin (Just a placeholder) end; 


begin (Main} 
writeln The answer is:’,f(13, Dummy)); 
end. 





图 9-25 使 用 形式 过 程 的 一 个 Pascal 程 序 


F 由 Main 调 用 ， 然 后 递归 调用 自己 12 次 。 在 第 12 次 调用 时 ， 它 返 回调 用 Arg 时 得 到 的 值 ， 这 里 的 Arg 
绑 定 到 局 部 过 程 Local 的 某 次 出 现 。Local 访 问 非 局 部 变量 Level。 根据 类 -Algol 语 言 常用 的 静态 作用 域 规 
则 ， 这 个 非 局 部 引用 必须 找到 声明 在 过 程 f 中 的 实例 。 但 在 Level 的 13 个 实例 中 ， 哪 一 个 是 可 用 的 呢 ? 不 
要 被 静态 和 动态 作用 域 规则 之 间 的 区 别 弄 灶 涂 T! 静态 作用 域 规则 提 到 当 一 个 同名 变量 有 多 处 声明 时 ， 
我 们 所 要 找 的 是 最 接近 (closest) 而 非 近期 (most recent) 声明 的 变量 。 这 里 ， 只 能 有 一 个 Level 声 明 符 
合 要 求 。 若 采用 近期 的 Level 出 现 将 导致 一 个 “近期 ”错误 。Local 实 例 中 使 用 的 Level， 必须 等 到 包含 





ZTA fd ARR 199 
该 它 的 Local 声 明 清 晰 后 一 一 即 控制 流 进入 该 Locai 的 时 候 ， 才 能 有 效 绑 定 。 当 这 个 Local 出 现 被 选择 用 来 
作为 参数 传递 时 ， 它 同时 携带 了 相关 环境 以 及 所 绑 定 的 Level。 最 终 得 以 调用 的 那个 Local 版 本 ， 它 所 获 
得 的 Level 值 为 11 。 因 此 ， 这 个 程序 打印 11。 

C 语 言 不 允许 子 程序 婴 套 在 其 他 子 程序 中 。 但 这 种 限制 同时 赋予 了 一 些 子 程序 在 其 他 语言 中 所 没有 
的 更 大 的 可 见 性 ， 也 确实 有 助 于 了 解 和 实现 C 语 言 中 的 形式 过 程 。 作 为 参数 传递 的 子 程序 不 需要 携带 相 
关 环 境 ， 因 为 它们 仅 可 以 访问 所 有 子 程序 共享 的 全 局 变量 或 建立 于 子 程序 活动 时 的 局 部 变量 。( 事实 上 ， 
在 C 语 言 中 没有 上 述 那 样 的 形式 过 程 参 数 。 相 反 地 ， 那 些 参 数 是 具有 “函数 指针 ”类 型 的 简单 变量 .) 
Ada 语 言 甚至 比 C 语 言 更 严格 ， 它 不 允许 有 形式 过 程 。 限 制作 为 形式 过 程 的 子 程序 不 能 典 套 在 其 他 子 程 
序 中 将 会 允许 更 多 有 用 的 形式 过 程 的 应 用 而 且 也 避免 了 维护 正确 执行 环境 时 的 内 在 的 复杂 性 。 


练习 


| 程序 设 计 语言 提供 了 各 种 数据 对 象 的 构造 器 。 为 下 面 描述 的 各 类 数据 对 象 设计 最 合适 的 运行 时 的 存 
储 组 织 。 
list of T; 


T 为 任意 类 型 名 。 表 可 以 使 用 append 操 作 进 行 连接 ;使 用 head 和 tail 操 作 进行 拆 分 。 
set of Lower .. Upper; 
Lower 和 Upper 是 常量 值 。 这 其 实 是 Pascal 提 供 的 集合 构造 器 。 
set of Lower .. Upper; 
Lower 和 Upper 是 在 运行 时 明确 集合 声明 的 时 候 计算 的 表达 式 。 
set of T; 
T 是 任意 类 型 名 。 
Extendedint; 
Extendedint 是 精度 扩展 的 整数 。 它 没有 Maxlnt 或 Minlnt 限 制 ; 相反 ， 其 精度 表示 可 根据 需要 
进行 扩展 以 容纳 任意 值 。 
file of T; 
T 是 除 文件 (或 包含 文件 的 结构 ) RAZIE. ix HE Pascale BER SC HF PH at o 
String(N); 
N 是 常量 值 。 串 的 长 度 可 以 介 于 0 和 N 之 间 。 
String(N); 
N 是 在 运行 时 明确 串 的 声明 的 时 候 计 算 的 表达 式 。 串 的 实际 长 度 介 于 0 和 N 之 间 。 这 其 实 是 PLV/I 
提供 的 串 构 造 器 。 
2， 给 出 下 面 例 程 的 过 程 级 和 块 级 AR 的 布局 图 。 
procedure q(a : integer; b: real) is 
c : array(1..N) of real; 
d : string; 
begin 


declare 
e : array(1..10) of integer; 
in 


declare 
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f : array(1..M) of integer; 
9 : integer; 
begin 
end: 
end q; 


3 跟踪 以 下 程序 执行 时 的 AR 序列 以 及 所 需 的 显示 表 操 作 。 


procedure main js 
function m(i : integer) return integer is 
function p(i : integer) return integer is 
begin 
return m(i * 2 + 1); 
Pp; 


function q(i : integer) return integer is 
begi 


n 
return m(i + 111); 
end q; 


function r(i : integer) return integer is 
begin 


retumni* 3; 
r; 


begin 
case i mod 3 is 
when 0 => return p(i / 3); 
when 1 => return q(i / 3); 
when 2 -» return r(i / 3); 
end case; 
end m; 


begin 
write(m(157)); 
end main; 


， 用 静态 链 和 动态 链 方式 给 出 在 练习 3 中 在 函数 r 话 跃 时 运行 时 栈 上 的 AR 序列 。 


5， 在 一 些 计算 机 系统 上 有 可 能 扩展 最 大 可 访问 的 内 存 地 址 ， 从 而 增加 有 效 内 存 的 大 小 。 当 程序 因 动 态 


9. 


存储 结构 生长 而 用 尽 自由 空间 时 ， 这 种 内 存 扩 展 操作 就 显得 格外 有 意义 了 。 为 了 获得 该 扩展 ， 你 将 
如 何在 内 存 中 放置 程序 呢 ? 


， 在 9.3.3 节 中 识别 可 访问 堆 对 象 的 握手 方案 不 能 安全 地 进行 堆 紧 缩 。 提 出 一 个 允许 堆 紧 缩 的 一 般 化 的 


BER. Rt: 将 两 方 担 手 推 广 到 三 方 握手 。 


.许多 编译 器 分 配 固定 的 寄存 器 集合 用 于 显示 表 。 有 时 过 多 地 分 配 会 造成 浪费 ， 而 太 少 的 分 配 又 会 限 


制 能 编译 成 功 的 程序 种 类 。 
描述 一 个 算法 ， 编 译 器 可 用 它 来 确定 一 个 特定 程序 恰好 和 需要 的 显示 表 寄 存 器 数 。 这 个 算法 若 用 在 一 
遍 编译 器 中 会 出 现 什么 问题 ? 


， 假 设 我 们 组 织 的 堆 中 的 每 个 对 象 只 允许 由 一 个 指针 指向 。 当 指向 一 个 对 象 的 指针 改变 时 ， 应 做 哪些 操 


作 呢 ? 在 打开 或 关闭 作用 域 时 应 做 什么 样 的 操作 ? 能 人 允许 指针 或 堆 对 象 的 赋值 吗 ? 
假设 我 们 采用 引用 计数 来 组 织 堆 。 当 分 派 指 向 堆 对 象 的 指针 时 ， 应 做 哪些 操作 ? 在 打开 或 关闭 作用 
域 时 应 做 什么 操作 呢 ? 


10， 包 括 C 语 言 在 内 的 一 些 语言 有 创建 指向 数据 对 象 指针 的 操作 。 如 ， 


p= &x; 
取 类 型 为 t 的 对 象 x 的 地 址 赋 给 指针 Pp， 而 P 的 类 型 则 为 t*#。 
如 果 可 以 创建 指向 AR 里 任意 数据 对 象 的 指针 ， 那 么 运行 时 栈 的 管理 会 复杂 到 什么 程度 ? 





为 确保 运行 时 栈 的 完整 性 ， 需要 对 指向 数据 对 象 的 指针 的 创建 和 拷贝 做 哪些 约束 ? 


， 假 设 我 们 不 是 维护 单个 的 堆 ， 而 是 为 每 种 类 型 T 都 维护 一 个 不 同 的 可 动态 分 配 的 子 堆 。 这 种 维护 子 


堆 的 做 法 有 什么 优 缺 点 ? 子 堆 将 如 何 简 化 不 可 访问 对 象 的 回收 ? 


.考虑 一 种 称 为 最 差 适 配 (worst-fit) 的 堆 分 配 策略 。 不 像 最 佳 适 配方 法 是 从 自由 空间 块 中 分 配 与 需 


求 大 小 最 接近 的 块 ， 最 差 适 配方 法 选择 最 大 的 可 用 自由 块 进行 分 配 。 与 最 佳 适 配 、 首 次 适 配 和 循环 
首次 适 配 等 分 配 策略 相 比 ， 最 差 适 配 有 什么 优 缺 点 ? 


.复杂 算法 的 性 能 评测 往往 通过 模拟 它们 的 行为 来 进行 。 编 写 程序 模拟 一 系列 随机 的 堆 分 配 和 释放 。 


比较 最 佳 适 配 、 首 次 适 配 和 循环 首次 适 配 等 技术 分 配 堆 对 象 的 平均 搜索 次 数 。 


， 一些 程 序 设计 语言 提供 以 下 描述 程序 步 并 发 执行 的 结构 : 


cobegin «stmt 1» | <stmt2>/--- |«stmt n> coend 

语句 <stmt 1», =, «stmt n> 可 以 以 任意 次 序 并 发 执行 。 在 cobegin 结 构 中 的 每 条 语句 里 ， 可 
以 使 用 普通 的 begin-end 语 句 块 来 强制 顺序 执行 。 

普通 的 运行 时 栈 能 否 满足 含有 cobegin 结 构 的 语言 ? 如 果 不 能 ， 应 该 如 何 扩 充 运 行 时 栈 来 支 
持 cobegin 中 的 并 发 或 者 交错 执行 次 序 ? 


， 假 设 使 用 显示 表 交 换 的 方法 实现 形式 过 程 。 跟 踪 下 面 Pascal 程 序 执行 时 的 AR 序 列 以 及 所 需 的 显示 表 


操作 9 
program prog(output); 


procedure q(procedure c(var i:integer)); 
var z : integer; 


procedure p(procedure a(procedure x(var j: integer): 
procedure b(var k:integer)); 


procedure f; 
var i ; integer; 
procedure s(var j:integer); 


begin 
re nt * i) 

begin | 

i := 10; 

p(q.s); 
end; 
begin 
end.” 
现在 假设 使 用 静态 /动态 链 徐 来 实现 形式 过 程 。 再 次 跟踪 上 面 程序 执行 时 AR 序 列 以 及 所 需 的 静态 / 
动态 链 徐 操作 。 


”说 明 用 来 实现 形式 过 程 的 显示 表 交 换 方法 不 能 用 于 下 面 的 Pascal 程 序 : 


program prog(output); 

procedure q; 

label 1; 
procedure exec(procedure z); 
begin 
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procedure r; 
begin 
goto 1; 
end; 
begin exec(r); 
1: 
end; 
procedure p(procedure a); 
var v : integer; 
begin 
v := 10; 


a, 

writeln(v); 
end; 
begin 


p(q); 
end. 
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第 10 章 处 理 声明 


本 章 中 主要 有 三 节 内 容 。 第 一 节 给 出 处 理 声明 的 基本 技术 ， 包 括 表 示 声 明 的 各 种 结构 以 及 在 处 理 声 
明 时 语义 栈 的 特殊 使 用 方式 。 第 二 节 讲 述 处 理 Ada/CS 语 言 中 各 种 声明 的 一 个 简单 子 集 所 需 的 语义 例 程 。 
这 个 子 集 包 括 变 量 和 类 型 名 的 声明 ， 同 时 也 包括 记录 和 静态 数组 的 类 型 定义 。 这 些 语义 例 程 的 概述 是 采 
用 基于 ANSI C 的 伪 码 编写 的 ， 因 此 对 于 熟悉 ANSI C 的 人 来 说 ， 它 们 应 该 是 非常 易 读 的 。( 在 前 言 中 已 简 
述 了 对 ANSI CHP RR.) 第 三 节 包 括 一 些 类 似 的 用 于 Ada/CS 语 言 其 他 部 分 的 语义 例 程 的 概述 。 在 后 续 的 
三 章 里 ， 将 继续 使 用 语义 例 程 概述 这 种 手段 来 讨论 语言 特性 的 编译 。 尽 管 这 种 表示 是 基于 某 个 特定 语言 
的 特性 ， 但 所 介绍 的 技术 将 尽 可 能 地 通用 以 期 编译 范围 更 广 的 语言 。 

注意 以 下 术语 的 称谓 。 术 语 “记录 ”(record) 在 从 Algol 派 生出 来 的 语言 中 使 用 ， 而 在 C 语 言 中 则 
称 之 为 “结构 ”(structure ) 。“ 变 体 记 录 ”(variant record) 在 C 语 言 中 称 为 “联合 ”(union ) ， 和 而 一 个 的 
变 体 对 应 于 一 个 C 语 言 的 联合 中 的 一 个 成 员 。 特 别 地 ，C 语 言 的 union 等 价 于 Pascal 的 无 标签 变 体 。C 语 
言 中 没有 与 Pascal 或 Ada 语 言 中 的 有 标签 变 体 等 价 的 类 型 。 程 序 员 应 该 知道 在 任何 特定 时 刻 一 个 联合 中 
有 什么 。 


10.1 声明 处 理 的 基本 原则 


10.1.1 符号 表 中 的 属性 


在 第 8 章 ， 符 号 表 是 作为 将 名 字 和 一 些 属 性 信息 (attribute information) 相关 联 的 一 种 手段 。 那 时 ， 
我 们 不 考虑 与 名 字 相 关联 的 属性 中 包含 什么 样 的 信息 或 它们 的 表示 方式 。 现 在 ， 这 些 问 题 将 在 本 节 里 予 
以 讨论 。 

名 字 的 属性 通常 包括 编译 器 所 知道 的 关于 该 名 字 的 任何 东西 。 因 为 编译 器 获取 名 字 相 关 信 息 的 主要 
来 源 是 名 字 的 声明 ， 所 以 属性 可 被 认为 是 声明 的 内 部 表示 形式 。 编 译 器 在 内 部 确实 生成 某 些 属性 信息 ， 
通常 ， 在 名 字 声 明 出 现 的 上 下 文 或 者 在 一 个 隐 式 声明 的 名 字 的 使 用 处 生成 属性 信息 。 在 现代 程序 设计 语 
言 中 ， 名 字 有 许多 不 同 的 使 用 方式 ， 这 其 中 包括 变量 、 常 量 、 类 型 和 过 程 。 因 此 ， 每 个 名 字 均 拥有 不 同 
的 与 之 关联 的 属性 集合 。 当 然 ， 这 些 集合 中 的 属性 分 别 对 应 着 名 字 的 声明 和 使 用 。 

图 10-1 中 的 记录 定义 揭示 了 可 移植 Pascal 编 译 器 一 一 Pascal P-4 中 使 用 的 名 字 和 属性 表示 的 样式 ， 那 
曾 是 许多 Pascal 实 现 的 基础 。 根 据 名 字 的 不 同 使 用 方式 ， 它 采用 了 变 体 记录 来 处 理 必 须 与 名 字 相 关联 的 
各 类 属性 。 

Name、Llink 和 Riink 域 用 来 实现 符号 表 。 如 注释 所 言 ， 这 个 可 移植 的 Pascal 编 译 器 采用 二 又 树 形式 
的 符号 表 。 这样 ，IdPtr 被 定义 为 指向 标识 符 记录 的 指针 。 其 他 的 各 个 域 用 来 记录 符号 表 中 标识 符 的 属性 。 
第 一 个 属性 域 IdType 被 声明 为 TypePtr， 是 指向 TypeDescriptor 记 录 的 指针 ， 这 个 记录 是 另 一 个 重要 的 





”结构 ， 我 们 将 简要 地 讨论 它 。 跟 在 ldType 之 后 是 标识 符 记 录 的 变 体 部 分 ， 那 里 存放 着 各 种 不 同 标识 符 的 


适当 的 信息 。 由 于 研究 这 个 可 移植 Pascal 编 译 器 不 是 我 们 的 目的 ， 因 此 我 们 也 就 不 必 考 虑 这 个 记录 的 所 
有 细节 。 尽 管 如 此 ， 读 者 在 阅读 完 本 章 及 后 续 章 节 所 展示 的 Ada/CS 语 言 的 编译 技术 后 ， 应 该 会 很 容易 地 
明白 它们 。 过 程 和 函数 名 字 的 变 体 值 得 关注 ， 因 为 它 包 含 一 个 碟 套 的 变 体 以 区 别 标 准 例 程 和 那些 在 程序 
中 声明 的 例 程 。 根 据 所 需 存 储 的 属性 信息 的 复杂 度 ， 我 们 可 以 采用 任意 复杂 的 结构 来 表示 它们 。 
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BG AA 


type identifier = 
record 
Name : Alpha; . (* the identifier represented here *) 
Llink, Rlink : IdPtr; (* to implement a binary tree symbol table *) 
(* The previous fields implement the symbol table search mechanism; *) 
(* those that follow describe the attributes of Name *) 
idType : TypePtr; 
Next : IdPtr; (* used to construct lists of identifiers *) 
case Class : IdClass of 
Constant: (Value : ValueType); 
Variable : (Vkind : IdKind; 
Vievel : LevelRange; 
Vaddr : AddressRange); 
Field: (FieldOffset : AddressRange); 
Proc, Func: ( 
case PFDeciKind : DeclKind of 
Standard: ( «> ); 
Declared: ( --- )) 





图 10-1 Pascal P-4 编 译 器 中 的 符号 表 记 录 


在 概述 处 理 Ada/CS 声 明 的 语义 例 程 时 ， 我 们 给 这 个 正在 编译 的 语言 定义 一 个 类 似 的 属性 记录 。 我 
们 的 记录 和 前 面 的 Pascal 记 录 的 重大 区 别 是 ， 我 们 将 符号 表 的 实现 和 属性 分 离开 来 ， 并 把 它们 放置 在 不 
同 的 结构 中 。 如 果 语 言 允 许 一 个 名 字 在 单个 作用 域 中 有 多 重 定 义 ， 如 Ada 语 言 通过 重 载 特性 所 做 的 ， 那 
么 该 语言 的 编译 器 就 必须 将 单个 名 字 与 多 个 属性 集合 关联 起 来 。 通 过 将 每 个 属性 集合 放 在 单独 的 结构 中 
并 且 建 立 这 些 结构 的 链表 来 表示 名 字 的 重 载 使 用 ， 可 以 很 容易 地 满足 这 种 需求 


10.1.2 类 型 描述 符 结构 


在 图 10-1 中 的 记录 所 示 的 名 字 的 属性 中 ， 有 一 个 是 名 字 的 类 型 信息 ， 它 包括 在 一 个 通过 指针 指向 的 

TypeDescriptor 记 录 里 。 表 示 一 个 类 型 给 编译 器 的 设计 者 提出 了 和 表示 一 个 属性 同样 的 问题 : 有 许多 不 

321] 同 的 类 型 ， 它 们 的 描述 也 需要 不 同 的 信息 。 再 一 次 地 ， 我 们 使 用 一 个 如 图 10-2 所 示 样 式 的 变 体 记录 (C 
语言 中 ， 是 一 个 union )， 它 也 是 基于 Pascal P-4 结 构 的 。 


type TypeDescriptor = 
. record 


Size : AddressRange; 
PackedFlag : boolean; 
case Form : TypeForm of 
Scalar: (case ScalarKind : DeciKind of 
Declared: (FirstConst : ldPtr); 
Standard: () ); . 
Subrange: (RangeBaseType : TypePtr; 
Min, Max : Value); 
Pointer: (PtrBaseType : TypePtr); 
SetType: (SetBaseType : TypePtr); 
ArrayType:  (IndexType, ElementType : TypePtr); 
RecordType: (FirstField : IdPtr); 


FileType: (FileBaseType : TypePtr) 





图 10-2 Pascal P-4 编 译 器 的 类 型 描述 符 


TypeDescriptor 记 录 开 始 于 给 出 类 型 大 小 的 域 以 及 指示 是 否 压缩 的 标志 域 。 这 些 信 息 是 所 有 类 型 都 
有 的 。 此 记录 的 其 他 部 分 则 是 一 个 变 体 部 分 ， 如 何 变化 取决 于 所 描述 的 类 型 的 种 类 。 该 记录 重要 的 一 点 
就 是 它 的 变 体 部 分 中 几乎 每 个 域 都 是 一 个 指针 。 例 如 ， 枚 举 〈 标 量 ) 类 型 被 包含 该 类 型 常量 值 的 
Identifier 记录 列表 所 描述 。 记 录 (record) 被 可 用 于 查找 记录 域 的 二 叉 树 所 描述 ， 就 像 为 其 他 标识 符 所 
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做 的 那样 。 数 组 通过 指向 其 下 标 和 元 素 类 型 的 TypeDescriptor 的 指针 来 表示 。 这 样 ， 类 型 通常 不 是 采用 
单个 的 记录 而 是 使 用 由 指针 构造 的 可 扩展 的 数据 结构 来 描述 。 这 种 表示 在 处 理 像 C、Modula-2、Pascal 
和 Ada 等 允许 使 用 强 有 力 的 组 合 规则 来 构造 类 型 的 语言 时 是 至 关 重 要 的 。 采 用 这 种 技术 而 非 某 些 固定 的 
表格 式 表 示 ， 还 可 以 让 编译 器 在 处 理 程序 员 的 声明 方面 更 加 灵活 。 例 如 ， 有 了 这 种 技术 ， 也 就 不 需要 限 
制 数 组 中 所 允许 的 维 数 ， 或 者 记录 中 所 允许 的 域 的 个 数 。 在 某 些 语言 (如 FORTRAN ) 中 有 这 样 的 限制 
纯粹 是 出 于 实现 上 的 考虑 。 我 们 通常 乐于 使 用 这 样 一 些 技术 ， 即 这 些 技术 能 够 使 编译 器 避免 因为 一 个 程 
序 的 大 小 或 它 的 某 个 部 分 而 拒绝 这 个 合法 的 程序 。 由 TypeDescriptor 记 录 所 暗示 的 动态 链接 结构 的 使 用 
是 这 种 技术 的 重要 基础 。 


10.1.3 语义 栈 中 的 列表 结构 


在 Ada/CS 和 其 他 一 些 程序 设计 语言 中 的 很 多 构造 均 涉及 到 标识 符 列表 、 表 达 式 列表 等 。 其 中 有 些 
列表 (如 声明 列表 ) 没有 语义 上 的 含义 。 各 种 声明 均 是 单独 处 理 的 。 而 其 他 一 些 列表 〈 如 Pascal 过 程 调 
用 中 的 实 参 表达 式 列表 ) 就 有 语义 上 的 意义 ， 当 语法 分 析 器 识别 列表 项 时 ， 它 们 可 以 被 逐 项 地 处 理 ， 这 
是 因为 从 列表 所 出 现 的 上 下 文中 编译 器 已 获得 足够 可 用 的 信息 。 在 上 述 任何 一 种 情况 下 ， 都 不 需要 显 式 
地 从 语义 栈 上 收集 列表 项 。 

Ai. 在 列表 项 上 的 大 多 数 语义 处 理工 作 必须 等 到 收集 整个 列表 后 才能 完成 下 面 的 Ada/CS 的 产 
生 式 描述 了 这 样 的 问题 。 


«object declaration» — «id list» : «object tail» 


在 处 理 <object tail> 过 程 中 收集 到 的 语义 信息 是 用 来 给 <id list> 中 的 标识 符 构 造 属性 记录 。 收 集 这 些 在 语 
义 栈 上 的 标识 符 也 只 有 等 到 整个 声明 分 析 完 后 才 有 意义 。 如 果 我 们 定义 一 个 名 为 MARK 的 语义 栈 记 录 类 
型 ， 这 一 点 将 很 容易 做 到 (通过 动作 控制 的 语义 栈 )。 一 个 MARK 记 录 就 像 ERROR 记 录 一 样 不 包含 任何 信 
自 。 它 在 语义 栈 中 特定 位 置 上 的 出 现 传送 着 所 有 需要 的 信息 。 我 们 也 需要 供 标识 符 选 择 的 一 个 语义 记录 。 
在 第 7 章 所 讨论 的 Micro 编 译 器 的 语义 记录 中 ， 标 识 符 串 存放 在 表达 式 记 录 里 。 在 更 复杂 的 语言 中 ， 所 有 
的 标识 符 并 不 解释 为 表达 式 ， 因 此 ， 就 需要 一 个 单独 的 语义 记录 的 变 体 。 

带 有 动作 符号 的 <id list> 的 产生 式 如 下 : 


«id list» — #push_mark «id» ( , «id» } 
«id» 一 IDENTIFIER process id 


上 述 语 义 例 程 仅 需要 简单 的 动作 : 
push mark (void) 
{ 


Push a MARK record onto the semantic stack. 


) 
process id(void) 


Push an ID record onto the semantic stack, containing 
the token string of the identifier returned by the 
scanner. 


) 

图 10-3a 显 示 了 push_mark( ) 在 语义 栈 上 的 执行 效果 。 图 10-3b 则 给 出 了 处 理 <id list> 的 一 部 分 或 全 
部 之 后 的 语义 栈 格 局 。 

MARK 记 录用 作 列 表 的 分 界 符 。 那 些 使 用 <id list> 的 语义 例 程 可 以 深入 栈 中 处 理 标识 符 直至 过 到 
MARK 记 录 。 这 种 技术 的 主要 思想 就 是 : 任意 长 的 列表 ， 即 使 它 只 对 应 着 文法 中 一 个 非 终结 符 ， 它 仍 可 以 
通过 栈 中 一 系列 的 条 上 且 来 表示 。 

此 项 技术 的 主要 优点 在 于 它 的 简单 性 。 其 主要 缺点 是 : 如果 用 数组 实现 语义 栈 ， 则 非常 长 的 列表 会 
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引起 栈 的 溢出 。 尽 管 这 个 问题 在 处 理 较 长 的 标识 符 声 明 列表 时 不 大 可 能 发 生 ， 但 是 在 处 理 普遍 存在 的 有 
大 量 选择 分 支 的 情况 语句 时 还 是 有 可 能 发 生 的 。 因 此 ， 为 应 对 这 种 情况 ， 我 们 必须 考虑 另外 的 处 理 列 表 
的 办 法 。 一 种 有 效 的 办 法 是 由 语义 栈 中 一 个 记录 来 表示 列表 ， 并 建立 显 式 的 链接 结构 以 包括 列表 的 元 素 。 
以 <id list> 为 例 ， 在 处 理 部 分 或 全 部 列表 后 ， 我 们 可 以 得 到 如 图 10-4 所 示 的 结构 。 


语义 栈 语义 栈 
之 前 之 后 





图 10-3 





图 10-4 另 一 种 <id list> 表 示 


除了 处 理 溢出 问题 以 外 ， 这 项 技术 还 与 由 分 析 器 控制 的 语义 栈 的 使 用 相 兼 容 ， 而 将 列表 放 在 栈 中 的 
那些 技术 则 不 行 。 在 下 面 <id list> 的 产生 式 中 ,我 们 将 动作 符号 摆 放 在 略微 不 同 的 位 置 ; 非 终结 符 <id> 
没有 出 现在 这 个 产生 式 中 ， 因 为 由 它 的 产生 式 触发 的 动作 例 程 直 接 把 一 个 IP 记 录放 在 了 栈 上 : 

eid list» — IDENTIFIER #start_id_list{, IDENTIFIER snext id ) 

相应 的 动作 例 程 显 示 在 下 面 。 在 这 个 例子 中 ,我 们 引入 了 新 的 符号 ， 因 此 动作 例 程 不 需要 显 式 地 引 
用 语义 栈 。 文 法 符号 (终结 符 和 非 终 结 符 ) 就 像 参数 一 样 出 现在 例 程 名 后 的 括号 内 ， 与 这 些 文法 符号 相 
关联 的 语义 记录 用 作 动作 例 程 的 参数 。 如 果 语 义 例 程 输出 的 结果 是 语义 记录 ， 则 与 之 关联 的 文法 符号 跟 
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在 符号 => 之 后 。 动 作 例 程 中 的 赋值 由 二 表示 。 这 个 符号 使 得 动作 例 程 独立 于 所 使 用 的 语义 栈 ， 无 论 这 个 
语义 栈 是 由 动作 控制 的 还 是 由 分 析 磺 控制 的 。 在 许多 场合 中 ，， ARREARS AAS AUI, 如 果 使 用 
了 抽象 语法 树 的 表现 形式 ， 这 些 例 程 甚至 可 以 作为 树 属 性 计算 的 例 程 。 

/* 

* Since identifier lists can be either in the semantic 

* stack or in a list, these two routines are purposely 


* vague about adding new identifiers to the list. 
*/ l 


start_id list (IDENTIFIER) => <id list> 
{ 
Create an ID record for the token string 
corresponding to IDENTIFIER 


«idlist» — an IDLIST record containing a 
pointer to that ID record 
) 


next id(«id list», IDENTIFIER) => «id list» 
{ 


Create an ID record for the token string 
corresponding to IDENTIFIER 
Add this record to the list of such records in the 
IDLIST record 
<id list> « the updated IDLIST record 
) 
start_id_list() 产 生 如 图 10-4 所 示 的 列表 的 首 记 录 并 把 第 一 个 标识 符 放 在 列表 中 。next_id( ) 


的 调用 则 把 后 续 的 标识 符 添加 到 列表 中 。 


10.2 简单 声明 的 动作 例 程 


现在 我 们 开始 研究 编写 Ada/CS 编 译 器 所 需 的 技术 。 这 一 节 首 先 讨论 Ada/CS 声 明 的 一 个 简单 子 集 的 
处 理 技术 。 | 


10.2.1 变量 声明 


在 开始 研究 声明 的 处 理 之 前 ， 我 们 先 考 虑 诸如 在 Pascal 和 Modula-2 等 语言 中 出 现 的 变量 声明 。 和 
Ada 和 Ada/CS 等 语言 不 同 ， 这 些 语 言 中 变量 和 常量 声明 的 语法 形式 均 不 相同 ， 而 且 变 量 声明 可 以 不 包括 
初始 化 规范 。 因 此 ， 这 种 变量 声明 的 语法 很 简单 : 

«variable declaration» — «id list» : «type» #var_dec! 

下 面 所 示 的 记录 用 在 语义 栈 上 表示 类 型 。 这 种 记录 的 实例 将 由 分 析 <type> 时 所 调用 的 语义 例 程 放 在 语义 
栈 上 。 


struct type ref { 
type descriptor *object type: 
}; 


现在 我 们 给 出 能 满足 处 理 声 明子 集 特性 的 属性 和 类 型 描述 符 记 录 。 这 些 记录 很 像 前 面 讨论 过 的 


Pascal 记 录 ， 但 它们 更 适 于 处 理 Ada/CS 的 特性 。 稍 后 会 讨论 使 用 它们 处 理 各 类 声明 时 的 细节 。 数 组 变 体 


中 使 用 的 struct range 将 在 处 理 数 组 声明 的 那 一 节 里 定义 。( 这 是 第 一 次 将 匿名 结构 (anonymous 
structure) 用 作 芽 名 联合 的 成 员 。) 
图 10-5、 图 10-6 分 别 给 出 了 处 理 同 一 个 Ada/CS 子 集 的 合适 的 属性 定义 和 semantic_ record 结 构 声 明 。 
在 阅读 本 章 和 第 11~13 章 的 语义 例 程 时 ， 记 住 其 中 使 用 的 终结 符 或 非 终 结 符 名 〈 像 <id list») 表示 


struct semantic record. 
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#include "symtab.nh" 

typedef short boolean; 

enum id class ( VARIABLE, FIELD, TYPENAME }; 

enum type form { INTEGERTYPE, FLOATTYPE, STRINGTYPE, 
ARRAYTYPE, RECORDTYPE, ERRORTYPE ); 

typedef unsigned long address range; 

struct address ( 

short var level: 


address range var offset; 
boolean indirect; 


/* see Chapter 8 */ 


) 
typedef struct attributes ( 
id entry id; 
struct type des *id type; 
enum id class class; 
union í( 
/* class == VARIABLE */ 
struct address var address; 
/* class == FIELD */ 
struct ( 
address range field offset; 
struct attributes *next field; 
}; 
/* class == TYPENAME --- empty variant */ 
}; 
} attributes; 


typedef struct type des { 
address range size; 
enum type form form; 
union { 
/* form == INTEGERTYPE, FLOATTYPE, STRINGTYPE, 
ERRORTYPE -- empty variant */ 
/* form == ARRAYTYPE */ 
struct { 
struct range bounds; 
struct type des *element type; 
he 
/* form == RECORDTYPE */ 
struct { | 
symbol table fields; 
attributes *field list; 
H 
) type descriptor; 


图 10-5 属性 定义 


struct id { string id; }; 


struct type ref { type descriptor *object type: 
struct record def { 

type descriptor *this type: 

address range next offset: 


) 
struct range { long lower, upper: }; 


enum semantic record kind ( ID, TYPEREF, RANGE, 
CONSTOPTION, RECORDDEF, MARK, ERROR ); 


struct semantic record { 

enum semantic record kind record kind; 

union ( 
struct id id; /* ID */ 
struct type ref type ref; /* TYPEREF */ 
struct range range; /* RANGE */ 
struct const option const option; /* CONSTOPTION af 
struct record def record_def; /* RECORDDEF */ 
/* empty variant */ /* MARK */ 
/* empty variant */ /* ERROR */ 





图 10-6 语义 记录 类 型 声明 
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| 仅 有 一 个 语义 动作 符号 出 现在 变量 声明 的 产生 式 中 ， 但 相应 的 语义 例 程 却 依 赖 许 多 其 他 语义 动作 的 
结果 。 该 语义 动作 的 参数 包括 一 个 在 分 析 <type> 时 调用 语义 动作 所 产生 的 TYPEREF 语 义 记录 以 及 <id 
list>， 后 者 可 由 在 本 章 前 面 所 讨论 的 两 种 方法 之 一 来 表示 。var_decl( ) 把 列表 中 所 有 的 标识 符 填 人 符 
号 表 并 为 它们 建立 相应 的 属性 记录 。 在 一 遍 编译 器 中 ， 此 时 将 分 配 变量 在 活动 记录 中 的 位 置 。 我 们 可 以 
通过 产生 类 型 为 struct adqdress 的 属性 来 达到 此 目的 ， 该 属性 包括 当前 过 程 的 嵌 套 层次 、 每 个 特定 变 
量 的 侦 移 以 及 间接 标志 《对 于 简单 变量 而 言 ， 此 标志 总 为 FRLSE ): 


var decl(«idiist», <type>) 
t 
for (each identifier in <idlist>) ( 
Call enter() to put the identifier in the 
current scope of the symbol table 
if (it is already there) ( 
generate an appropriate error message 
continue; 


) 


Allocate storage for the variable, recording its 
offset in the local variable offset 

(The size of the block of storage to allocate is 

obtained from «type».type ref.object type.size) 


The following expression describes the attribute 
record to be created for the variable: 


(attributes) ( 
.class = VARIABLE; 
.id type = «type».type ref.object type; 
.id = the id entry returned by enter(): 
.var address - (struct address) ( 
.var level = current nesting level; 
.var offset - offset; 
„indirect = FALSE; 
} 
) 
) 
} 


10.2.2 类 型 定义 、 声 明和 引用 


在 语义 例 程 var_dec1i( ) 中， 我 们 假设 <type> 的 产生 式 包 含 对 能 够 产生 TYPEREF 语 义 记录 的 语义 例 
程 的 调用 。 我 们 现在 可 以 检查 那些 语义 例 程 以 了 解 TYPEREF 记 录 的 产生 过 程 。 相 关 的 语法 是 : 


<type> 一 «type name> 
<type> — «type definition» 
«type name» — «id» fftype reference 


«type definition» — «record type definition 
«type definition» — «array type definition 


类 型 定义 指出 采用 Ada/CS 类 型 构造 器 机 制 之 一 来 构造 新 类 型 的 过 程 。 在 类 型 定义 产生 式 中 的 语义 
例 程 实际 创 建 类 型 描述 符 并 建立 引用 以 上 描述 符 的 TYPEREF 语 义 记录 。10.2.3 节 和 10.2.4 节 将 研究 记录 和 
数组 的 这 种 处 理 。 

当 <type name> 候 选 产 生 式 被 用 于 <type> 时 ， 其 中 的 标识 符 要 么 必须 是 预定 义 的 类 型 名 ， 要 么 必 
须 是 在 类 型 声明 中 出 现在 前 面 的 名 字 。 无 论 是 哪 一 种 情况 ， 都 必须 由 语义 例 程 type_reference( ) 在 符 
号 表 中 找到 相应 的 type_descriptor 引 用 。 编 译 器 必须 在 其 初始 化 阶段 为 预定 义 类 型 建立 合适 的 类 型 
描述 符 和 符号 表 条 目 。 在 Ada/CS 中 ，integer、Float 和 String 是 预定 义 类 型 名 。 我 们 不 久 将 看 到 它们 的 
类 型 描述 符 的 样子 。 

类 型 声明 就 是 给 名 字 赋 予 类 型 的 语法 机 制 。 类 型 声明 的 语法 是 : 

<type declaration> — type <id> is <type definition» #type_deci 
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处 理 类 型 声明 不 需要 新 的 语义 记录 类 型 。 检 查 图 10-5 中 的 属性 记录 ， 我 们 可 以 发 现 其 中 类 型 标识 符 
所 对 应 的 是 空 变 体 。 这 里 所 需要 的 也 就 是 一 个 空 变 体 ， 因 为 需要 与 类 型 名 关联 的 属性 信息 只 是 指向 相关 
类 型 描述 符 的 指针 。( 与 Ada 语 言 不 同 ，C 语 言 中 没有 显 式 的 null 变 体 ; 因此 这 里 只 是 简单 地 使 用 注释 以 
表明 它们 的 存在 。) | 

正如 检查 <type deciaration> 产 生 式 所 期 待 的 那样 ， 语 义 例 程 tyPe_decl1() 在 ID 记录 和 TYPEREF 记 
录 上 进行 操作 。 因 为 它 是 一 个 声明 产生 式 ， 所 以 不 产生 语义 记录 : 

type_deci (<id>, <type definition>) 


The identifier is entered into the symbol table 
with the following associated attributes record: 


(attributes) { 
‘class = TYPENAME; 
id type = «type definition».type ref.object type; 
id = the id entry returned by enter(); }; 
} 


和 变量 声明 一 样 ， 类 型 声明 不 产生 存放 在 语义 栈 上 的 语义 记录 。 相 反 ， 从 声明 处 获得 的 信息 将 保存 在 符 
号 表 中 。 因 为 对 已 声明 的 标识 符 的 引用 可 以 出 现在 程序 的 任何 地 方 ， 所 以 显而易见 的 是 ， 栈 不 是 用 来 保 
持 和 访问 这 些 信息 的 有 用 场所 。 在 大 多 数 时 间 里 ， 语 义 栈 是 用 来 保存 和 某 个 声明 、 定 义 或 语句 (尽管 它 
18 GEE) 的 处 理 相关 的 信息 。 声 明和 语句 全 部 处 理 后 的 结果 会 出 现在 符号 表 和 生成 的 代码 中 ， 而 不 
是 出 现在 语义 栈 中 。 | 
现在 ， 我们 已 经 知道 了 如 何在 符号 表 中 表示 类 型 名 ， 接 下 来 就 可 以 定义 type_reference( ) 语 义 例 程 。 
就 如 我 们 已 经 看 到 的 ， 它 产生 包含 适当 类 型 引用 的 一 个 语义 记录 。 它 从 与 <id> 关 联 的 attributes 记 录 获 取 
类 型 描述 符 引用 并 放 在 那个 记录 中 。 
type reference (<id>) => «type name> 
Find <id>.id.id in the symbol table 
if (it is there && its attrs.class == TYPENAME ) 
«type name» «e (struct type ref) { 
ele ,object_type = «id».attrs.id type }; 


e 
<type name>.class = ERROR; 
} 


到 目前 为 止 ， 我们 所 考察 的 例 程 已 经 说 明了 类 型 描述 符 技术 的 一 般 性 。 在 描述 变量 和 类 型 声明 时 ， 
除了 用 来 分 配 变量 空间 的 类 型 大 小 信息 外 ， 我 们 并 没有 考虑 类 型 描述 符 的 更 多 细节 。 无 论 是 标量 类 型 还 
是 结构 化 类 型 ， 都 不 影响 上 述 例 程 。 惟 一 重要 的 是 ， 所 有 不 同 的 类 型 都 采用 统一 的 类 型 描述 符 来 描述 并 
且 与 类 型 相对 应 的 语义 记录 包含 着 指向 这 些 描述 符 的 指针 。 使 用 这 种 方法 可 以 很 容易 地 添加 新 的 类 型 而 
无 需 改 变 编译 器 中 有 关 类 型 处 理 的 那 部 分 结构 。 

处 理 类 型 声明 错误 

在 处 理 类 型 定义 的 语义 例 程 描述 中 ， 要 确定 各 种 符合 静态 语义 约束 的 检查 。 多 数 情况 下， 语义 例 程 
的 描述 假设 这 些 检查 是 成 功 的 ， 而 在 假设 不 成 立时 则 使 用 某 些 标准 的 错误 处 理 技术 。 在 第 7 章 里 介绍 的 
技术 将 某 个 预期 的 语义 记录 替换 为 ERROR 记 录 以 表示 错误 已 经 发 生 并 且 错 误 信息 也 已 发 出 。 那 种 技术 一 
般 可 用 于 本 章 里 描述 的 所 有 例 程 ， 从 而 寄 希 望 于 每 个 例 程 将 检查 它 使 用 的 语义 记录 是 否 有 鲁 。 

在 引入 ERROR 记 录 时 ， 我 们 曾 提 及 这 些 错误 标记 将 一 直 传播 下 去 直至 它们 迪 到 像 var_dec1( ) 和 
type decl ) 那 样 的 例 程 。 由 于 这 些 例 程 不 产生 用 于 进一步 传播 的 语义 记录 ， 因 此 也 就 阻止 了 错误 标记 
的 进一步 传播 。 此 方法 的 不 足 在 于 : 那些 即将 由 声明 例 程 填 人 符号 表 的 标识 符 将 被 忽略 。 而 随后 程序 中 
对 这 些 标识 符 的 使 用 将 导致 更 多 错误 信息 的 产生 ， 即 报告 这 些 标识 符 是 未 定义 的 。 我 们 的 目标 是 为 每 个 
错误 产生 最 少 的 错误 信息 〈 最 好 是 一 个 ) 为 此 ， 必 须 改进 我 们 的 技术 。 在 声明 例 程 之 前 出 现 的 错误 主 
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要 来 源 于 不 恰当 的 类 型 定义 ， 因 此 我 们 在 TYPEREF 记 录 中 包括 一 个 特殊 的 选项 ， 称 为 ERRORTYPE 。 当 其 
中 一 个 声明 例 程 发 现 它 接收 了 ERROR 记 录 而 非 TYPEREF 记 录 时 ， 它 继续 处 理 并 用 ERRORTYPE 类 型 描述 符 
来 声明 它 正在 处 理 的 一 个 或 多 个 标识 符 。 在 符号 表 中 检索 任意 标识 符 的 属性 时 ， 我 们 可 以 查看 它 关 联 的 
类 型 是 否 为 ERRORTYPE。 如 果 是 ， 则 产生 ERROR 记 录 以 取代 处 理 该 标识 符 的 语义 例 程 所 期 待 的 语义 记录 。 
遵照 通常 使 用 ERROR 记 录 的 协议 ， 后 来 的 例 程 不 会 再 为 此 产生 任何 错误 信息 。 
type_descriptor 记 录 l 

以 下 两 节 将 考察 类 型 描述 符 的 结构 ， 它 必须 被 构建 成 能 处 理 最 普通 的 结构 化 类 型 (如 记录 和 数组 ) 
的 类 型 定义 。 为 了 表示 这 些 类 型 以 及 预定 义 的 数值 类 型 ， 类 型 描述 符 记录 必须 具有 这 样 的 组 成 ， 最 初 是 
在 图 10-5 中 描述 : 


enum type form { INTEGERTYPE, FLOATTYPE, STRINGTYPE, 
ARRAYTYPE, RECORDTYPE, ERRORTYPE ): 


typedef struct type des { 
address range size; 
enum type form form; 
union { 
/* form INTEGERTYPE, FLOATTYPE, STRINGTYPE, 
ERRORTYPE -- empty variant */ 


/* form ARRAYTYPE */ 
struct { 
struct range bounds; 
struct type des *element type; 
}; 
/* form == RECORDTYPE */ 
struct { 
symbol_table fields; 
attributes *field list; 
) 
) type descriptor; 
| 给 定 上 述 这 个 C 语 言 的 类 型 声明 ， 我 们 很 容易 构造 出 Integer、Float 和 String 等 预定 义 类 型 的 类 型 描 
述 符 ， 它 们 将 被 符号 表 中 这 些 名 字 的 属性 条 目 所 引用 。 注 意 ， 这 些 名 字 必 须 放 在 符号 表 中 的 特殊 区 域内 ， 
该 区 域 包含 了 正 被 编译 的 程序 的 最 外 围 作用 域 中 的 名 字 。 我 们 必须 有 这 么 一 个 特别 的 区 域 ， 因 为 这 些 名 
字 均 不 是 保留 字 。 它 们 可 以 在 任何 程序 中 被 重新 定义 ， 但 那样 做 是 以 牺牲 程序 的 可 读 性 为 代价 的 。 
integer 类 型 描述 符 如 下 : 


(type descriptor) { .form = INTEGERTYPE; 
.8ize = INTEGERSIZE; } 


尽管 Float 和 String 使 用 不 同 的 常量 FLOATSIZE 和 STRINGSI2ZE 来 指定 size 域 的 值 ， 但 它们 的 类 型 描 
述 符 还 是 很 相似 。 这 三 个 常量 在 编译 器 前 端 代 表 着 机 器 相关 性 。 它 们 明显 依赖 于 目标 机 器 的 数值 表示 细 
节 和 所 选择 的 串 的 实现 方式 。INTEGERSIZE 和 FLOATSIZE 的 典型 值 ( 字 节 数 ) 分 别 是 2 和 4。 
SmRINGSIZE 将 在 第 11 章 介绍 串 的 实现 时 讨论 。( 此 时 ，C 语 言 的 sizeof 构 造 未 必 有 用 ， 因 为 这 些 常量 代 
表 着 目标 机 器 上 的 “数值 ”， 而 这 些 目标 机 器 不 需要 和 正在 运行 编译 器 的 机 器 一 样 。 ) 
类 型 相 容 性 , 

剩 下 的 问题 是 : “类 型 相同 或 者 有 约束 的 类 型 相 容 ”究竟 是 什么 意思 ? Ada, PascalffiModula-243 P* 
格 的 类 型 等 价 定义 ， 即 每 个 类 型 定义 都 定义 了 一 个 和 其 他 所 有 的 类 型 不 相 容 的 新 的 、 不 同 的 类 型 。 这 种 
定义 意味 着 以 下 声明 : 


A, B : array (1..10) of Integer; 
C, D : array (1..10) of Integer; 
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等 价 于 


type Tyre! is array (1..10) of Integer; 
A,B:T 


type dA is array (1..10) of integer; 
C, D: Type2; 


A 和 B 的 类 型 是 相同 的 ，C 和 D 的 类 型 也 是 相同 的 ， 但 这 两 个 类 型 是 由 不 同 的 类 型 定义 来 定义 的 ， 因 而 它 
们 彼此 不 相 容 ， 以 至 于 将 C 的 值 赋 给 A 是 非法 的 。 此 规则 很 容易 由 编译 器 来 强制 执行 。 因 为 每 个 类 型 定 
又 生成 不 同 的 类 型 描述 符 ， 而 类 型 等 价 的 测试 仅 需 比较 相应 揭 描 述 符 指 针 即 可 。 

其 他 语言 (如 最 为 知名 的 Algol 68) 使 用 别 的 规则 来 定义 类 型 等 价 。 最 常见 的 办 法 是 使 用 结构 化 类 
型 等 价 。 正 如 这 个 名 字 所 暗示 的 ， 使 用 这 个 规则 时 ， 如 果 两 个 类 型 有 相同 的 定义 结构 ， 则 它们 是 类 型 等 
价 的 。 这 样 ， 前 面 提 到 的 Type1 和 Type2 可 看 作 等 价 的 类 型 。 乍 看 起 来 ， 这 种 规则 似乎 是 一 种 很 恰当 的 
选择 ， 对 于 使 用 这 种 语言 的 程序 员 很 方便 。 然 而 ， 近 期 一 些 语 言 的 设计 者 已 经 认识 到 结构 等 价 规则 不 可 
能 让 程序 员 从 类 型 检查 的 概念 中 获取 全 部 好 处 。 也 就 是 说 ， 即 使 程序 员 想 让 编译 器 通过 类 型 检查 来 区 分 
Typet 和 Type2， 编 译 器 也 做 不 到 ， 因 为 这 些 类 型 明显 地 在 结构 上 等 价 。 

结构 等 价 很 难 实现 。 这 种 类 型 等 价 不 能 由 简单 的 指针 比较 来 决定 。 相 反 地 ， 需要 对 两 个 类 型 描述 符 
结构 进行 平行 的 遍历 。 为 此 需要 为 类 型 描述 符 记录 中 的 每 个 变 体 设计 特殊 的 分 支 代码 。 作 为 选择 ， 当 话 
义 动作 例 程 处 理 类 型 定义 时 ， 所 定义 的 类 型 可 以 和 前 面 已 定义 类 型 进行 比较 ， 以 便 用 同样 的 数据 结构 表 
示 等 价 的 类 型 ,即使 它们 是 分 开 定义 的 也 是 如 此 。 此 项 技术 允许 用 指针 比较 的 方法 来 实现 类 型 等 价 测 试 ， 
但 需要 一 种 索引 机 制 ， 以 便 在 声明 处 理 时 能 够 判别 一 个 新 定义 的 类 型 是 否 和 前 面 任何 一 个 已 定义 类 型 相 
等 价 。 

此 外 ， 指 针 类 型 中 可 能 出 现 的 递归 会 给 类 型 的 结构 等 价 测试 的 实现 带 来 难以 捉摸 的 麻烦 。 考 虑 能 够 
确定 下 面 两 个 Ada 类 型 是 否 结构 等 价 的 例 程 的 编写 问题 : 

type A is access B; 


type B is access A; 


尽管 这 样 的 定义 在 语义 上 没有 任何 意义 ,但 它 却 是 合乎 语法 的 (假设 在 A 的 定义 前 有 引入 名 字 B 的 不 完 
整 的 声明 )。 这 样 ， 采 用 结构 等 价 规则 的 语言 的 编译 器 必须 能 做 出 适当 的 决定 一 一 即 A 和 B 是 等 价 的 。 如 
果 采 用 平行 的 遍历 来 实现 等 价 测试 ， 遍 历 例 程 必须 在 比较 过 程 中 “ 记 住 ”它们 已 访问 的 描述 符 以 避免 陷 
入 死 循环 ( 见 练习 1)。 可 见 ， 还 是 比较 指向 类 型 描述 符 的 指针 来 得 容易 一 些 。 


10.2.3 记录 类 型 


记录 定义 从 一 系列 域 的 声明 中 构造 一 个 新 的 类 型 。 域 的 声明 在 语法 上 和 处 理 方式 上 同 变量 声明 类 似 。 
记录 可 以 由 一 个 类 型 描述 符 来 表示 ， 该 描述 符 包括 一 个 新 的 包含 这 些 域 的 符号 表 。 
记录 定义 的 语法 及 所 需 的 语义 动作 如 下 : 
«record type definition» — record #start_record «component list» 
stend record end record 
«component list» 一 «component declaration 


( «component declaration» } 
«component declaration» — «id list» : «type name> #field_decl ; 


再 次 地 ， 我 们 需要 一 个 新 的 语义 记录 类 型 : 


struct record def { 
type decriptor *this type; 
address range next offset; 
}; 


在 TYPEREF 记 录 中 ， 我 们 曾 看 到 描述 记录 的 下 列 变 体 : 
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struct { /* form == RECORDTYPE */ 
symbol table fields; 
attributes *field list; 
}; 
上 述 结构 采用 两 种 方法 来 表示 记录 域 : 1) 作为 单独 的 符号 表 ， 它 可 提供 最 快速 的 域名 搜索 ; 2) 作 为 有 序 
列表 ， 利 于 处 理 记录 聚合 。 记 录 通 常 不 是 很 大 ， 因 此 有 理由 仅 保持 这 个 列表 并 使 用 它 作 为 特殊 的 符号 表 
来 定位 记录 域名 。 但 我 们 还 是 包括 了 这 两 种 形式 以 便 提 供 最 全 面 的 处 理 能 力 。 
attributes 记 录 包 括 以 下 处 理 记 录 域 的 变 体 : 


struct { /* class == FIELD */ 
address range field offset; 
struct attributes *next field; 
) 
field_offset 记 录 了 该 域 在 包含 它 的 记录 中 的 偏 移 ;next_field 用 来 为 这 个 包含 记录 建立 它 的 域 列 表 。 
在 处 理 记录 的 过 程 中 调用 的 第 一 个 动作 例 程 是 start_record( ) 。 它 建立 能 被 处 理 域 声 明 的 动作 例 
程 使 用 的 RECORDDEF 语 义 记录 。 下 面 的 动作 例 程 描述 中 的 开头 部 分 指出 由 start_record( ) 例 程 产生 的 
语义 记录 与 符号 record 相 关联 。 这 个 关联 很 有 用 ， 因 为 该 语义 记录 实质 上 描述 了 正在 处 理 的 记录 声明 ， 
并 且 我 们 将 在 处 理 每 个 域 的 声明 时 引用 它 : 
start record(void) => record 
í Create a.type descriptor, T, as follows: 
(type_descriptor) { .form = RECORDTYPE; 
.size = 0; 
.field list = NULL; 
.fields = create(); } 
record — (struct record def) I 
.this type = & T; 
.next offset = 0; } ; 
} 


在 采用 动作 控制 的 语义 栈 的 编译 器 中 ， 由 start_record( ) 产 生 的 语义 记录 将 被 放 在 栈 上 且 在 调用 
field_decl() 时 可 用 ， 此 时 栈 的 格局 如 图 10-7 所 示 。( 假 设 标识 符 列表 全 部 存放 在 栈 里 .) 


4  TYPEREF 


RECORDDEF 





top 


图 10-7 调用 field_decl() 时 的 语义 栈 格局 336 


为 了 冰 述 在 我 们 的 语义 例 程 描述 符号 中 的 这 种 用 法 ， 我 们 使 用 了 如 下 的 上 下 文 有 关 〈context- 
sensitive) 的 产生 式 来 描述 <component declaration>: 
record <component deciaration> 一 record <id list> : <type name> #field decl ; 
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除了 所 做 的 仅 与 当前 记录 相关 而 非 与 当前 过 程 作用 域 相关 以 外 ， 由 例 程 fielqd dec1l( ) 完 成 的 处 理 
和 var_dec1li( ) 所 做 的 处 理 非常 类 似 。 


field decl (record, «idlist-, <typename>) => record 
{ 


Let RD name the semantic record associated with record 


for (each identifier in <idlist>) { 
Enter the identifier in the symbol table 
referenced by RD. fields 
if (it is already there) ( 
generate an appropriate error message 
continue; /* go on to the next identifier */ 
} 


The following expression describes the attribute 
record to be created for the field: 


(attributes) { 

.class = FIELD; 

.id type = «type name>.type ref.object type: 

.id = the id entry returned by enter(): 

.field offset = RD.next offset; 

.next field = NULL; ) 
/* Allocate space for the field with the record. */ 
RD.next offset += «type name».type ref .Object type.size 


Add this attribute record to the end of the list 
referenced by RD.field list 
) 


record — RD ; 
) 


由 field decl() 使 用 的 空间 分 配 技术 把 每 个 域 的 大 小 均 加 到 RD .next_offset 上 ， 此 项 技术 是 基 
于 不 需要 地 址 对 齐 的 简单 假设 。 它 不 能 用 于 某 些 体系 结构 的 机 器 上 ， 因 为 在 这 些 机 器 上 ， 如 果 记 录 的 域 
比 对 齐 因子 小 ， 则 要 求 相 应 的 数据 对 象 开 始 于 被 2 或 4 整除 的 地 址 。 在 这 样 的 机 器 上 ， 域 的 大 小 必须 加 以 
调整 来 维持 适当 的 地 址 对 齐 。 我们 继续 在 其 他 涉及 空间 分 配 的 例 程 中 使 用 这 种 相同 的 简化 假设 。 而 对 齐 
考虑 所 必需 的 扩展 也 是 很 简单 的 。 | 

最 后 ， 在 end_record( ) 例 程 中 ， 我 们 看 到 所 构造 的 TYPEREF 语 义 记录 用 来 表示 刚 被 处 理 的 记录 类 
型 定义 : 


end record (record) => «record type definition> 


{ 
type descriptor *T; 


T — record.record def.this type; 
T.size — record.record def.next offset; 
«record type definition» «— (struct type ref) { 
.Object type = T; } : 
} 
再 一 次 ， 新 的 类 型 由 TYPEREF 语 义 记录 来 表示 。 此 类 型 的 描述 符 由 一 个 指向 按 声 明 次 序 排列 的 记录 
域 的 attributes 列 表 的 指针 (利于 处 理 记 录 聚 合 ) 和 一 个 包含 每 一 个 记录 域 相应 条 目的 (任意 结构 的 ) 
符号 表 组 成 。 这 些 符 号 表 的 条 目 当 然 也 包含 用 于 每 个 记录 域 的 attributes 记 录 的 3 引用。 


10.2.4 静态 数组 


程序 中 带 有 静态 下 标 范围 的 数组 声明 是 非常 普遍 的 ， 因 此 它们 值得 单独 考虑 。 这 也 是 很 多 著名 的 语 
言 (如 C、Pascal 和 Modula-2) 中 所 允许 的 惟一 的 数组 类 型 定义 形式 。 因 为 这 个 特殊 情况 的 识别 可 以 使 
编译 器 有 效 地 减少 数组 实现 的 开销 ， 所 以 我 们 就 从 数据 结构 的 定义 和 实现 静态 数组 的 动作 例 程 来 开始 有 
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关 数 组 的 讨论 。 | 

下 面 是 用 于 约束 数组 定义 的 Ada/CS 语 法 的 一 个 子 集 。( 约束 数组 (constrained array) 是 Ada 的 一 种 
数组 类 型 ， 它 的 范围 由 特定 的 离散 类 型 来 确定 。 ) 特别 地 ， 这 个 子 集 被 限制 为 仅 允 许 整 型 文字 常量 用 作 
(下 标 ) 范围 描述 ， 这 样 就 确保 了 数组 的 所 有 (下 标 ) 范围 均 是 静态 的 。 


carray type definition» — array ( «static range» ) of «type» #array_def 
«static range» ^ A 2» INTLITERAL stiower bound .. INTLITERAL supper bound 


这 些 产生 式 仅 定义 了 一 维 数组 。 多 维 数组 必须 被 定义 为 数组 的 数组 。 我 们 需要 一 个 新 的 语义 记录 类 
型 来 表示 <static range>。 它 由 下 列 声明 来 定义 : 


struct range { 
long lower, upper; 
}; 


如 前 所 述 ，TYPEREF 记 录 中 数组 的 候选 为 : 


struct { /* form == ARRAYTYPE */ 
struct range bounds; 
struct type des *element type; 
h 


有 关 的 语义 例 程 定义 如 下 。lower_bound( ) 和 upper_bound( ) 建 立 RANGE 记录 ， 例 程 array_def() 使 
用 该 记录 和 数组 元 素 类 型 的 TYPEREF 来 产生 数组 的 TYPEREF 。 


lower_bound (INTLITERAL) => <static range> 
{ 
«static range» — a RANGE record with lower 
set to the value of INTLITERAL 
) 


upper bound («static range», INTLITERAL) => «static range» 
{ 
long u, 1; 
«static range». range .upper c— the value of INTLITERAL 


u = «Static range» . range . upper; 
1 = «static range» . range. 1ower; 


if (u >= 1) 
«static range» < the updated RANGE record 
else ( 
Produce an appropriate error message 
«static range» < an ERROR record or a corrected 
version of the RANGE record 


) 
) 


array def(«Staticrange», «type») => «array type definition» 
t 
long u, 1l; 
<Static range» . range. upper ; 
«static range» . range . lower; 


u 
1 


Create a new type descriptor for an array type: 
T <— (type descriptor) { 
.form = ARRAYTYPE; 
.element type = «type».type raf.object type; 
.bounds = «static range>. range; 
.size = .element type-»size * (u — 1+ 1); } 
«array type definition» «— (struct type ref) ( 
.object type = T; } 


} 


因此 ， 对 以 下 的 这 个 数组 定义 
array (1..10) of array (1..20) of Integer 


将 建立 如 图 10-8 所 示 的 type_descriptor 结 构 。 
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form => array_type 
size => 400 
element_type => 
bounds.lower => 1 
bounds.upper => 10 


J form => array. type 
| size => 40 

element type => 
bounds.lower => 1 
bounds.upper => 20 









form => integer type 
Size => 2 





图 10-8 type descriptor7R fil 


10.3 高 级 特性 的 动作 例 程 


10.3.1 变量 和 常量 声明 
现在 考虑 Ada/CS 中 全 部 的 对 象 声 明 语 法 。 它 包括 以 下 的 产生 式 和 语义 动作 记号 : 


<object declaration» — «id list» : <object tail> 


<object tail> 一 «constant option» «type or subtype» 
«initialization option» stobject decl 

«constant option» 一 ftnot constant 

«constant option» 一 constant is constant 


«type or subtype» 一 «type» 

«type or subtype> — «subtype definition» 
«initialization option» — — #no_initialization 
«initialization option» — — := «expression» 


而 且 还 需要 一 个 额外 的 语义 记录 类 型 


struct const_option { Boolean is constant; }; 


| 这 里 ?| 和 处理 可 选 关键 字 constant 的 两 个 例 程 。 它 们 中 的 每 一 个 都 产生 CONSTOPTION 语 义 记 录 来 
标识 该 关键 字 是 否 出 现 。 


is constant (void) => «constant option> 


«constant option» + (struct const option) { 
.is constant = TRUE; } ; 


) 


not constant (void) => «constant option» 


«constant option» « (struct const option) ( 
.is constant = FALSE; } ; 
} 
Ada 和 Ada/CS 中 的 常量 可 以 是 其 值 在 编译 时 就 能 确定 的 文字 常量 ， 或 者 其 值 由 运行 时 方 能 计算 的 表 
达 却 来 决定 。 若 是 文字 常量 ， 则 在 attributes 记 录 中 使 用 由 CONST 标 记 的 新 的 变 体 : 


/* class == CONST */ 
struct value type value; 


其 中 value _ type 在 讨论 表达 式 的 第 11 章 里 定义 。 

若是 运行 时 的 值 ， 则 常量 将 用 作 只 读 变量 ， 因 为 我 们 必须 像 处 理 其 他 变量 那样 给 它 分 配 空间 ， 但 它 
也 可 以 仅 由 一 个 初始 化 表达 式 来 定 值 。 因 此 ， 这 个 特性 需要 扩展 在 10.2.1 节 中 定义 的 struct address 
类 型 : 


struct address { 
short var_level; 
address range var offset; 
boolean indirect, read only: 
}; 


非 终 结 符 <type or subtype> 从 语法 上 定义 了 正在 声明 的 对 象 类 型 。 和 10.2 节 里 简单 子 集中 的 类 型 一 
样 ， 这 里 也 由 TYPEREF 记 录 来 表示 类 型 。 因 此 ， 不 需要 新 的 语义 例 程 或 者 新 的 语义 记录 类 型 来 处 理 这 个 
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非 终 结 符 。 

对 象 的 初始 化 可 以 选择 性 地 出 现在 其 声明 中 。 如 果 它 出 现 ， 它 将 由 描述 表达 式 的 语义 记录 来 表示 
(参见 第 11 章 ) ; 反之 ， 例 程 no_initialization() 必 须 产 生 某 种 可 作为 占 位 符 的 空 记 录 。MRARK 记 录 
可 以 胜任 此 项 工作 : 

no_initialization(void) => <initialization option> 


<initialization option» «c a MARK semantic record ; 
} 


object_decl() 显 然 比 var_decl() 更 复杂 ， 这 是 因为 它 不 但 要 处 理 变 量 而 且 还 要 处 理 常量 和 初始 
化 表达 式 。 像 var_dec1() 一 样 ， 它 的 基本 工作 也 是 把 所 有 已 声明 的 标识 符 放 入 符号 表 中 并 且 将 它们 与 
合适 的 属性 记录 相关 联 。 然 而 ， 由 object_dec1l() 建 立 的 与 标识 符 关 联 的 attributes 记 录 有 设置 为 
VARIABLE 或 者 CONST 的 class 域 。 图 10-9 描 述 了 例 程 object deci( ) 所 做 的 工作 ， 在 其 中 突出 的 位 置 
给 出 了 初始 化 选项 的 描述 。 


enum init kind { INITCONST, INITVARIABLE, INITNONE }; 


object decl (<id list», «constant option», «type or subtype», 
«initialization option») 


{ 


enum init kind initialization; 


if (<initialization option» . kind DATAOBJECT) ( 

Verify the assignability of 
<initialization option».data object.object type 
to «type or subtype>.type ref.object type. 

if (the expression has a compile-time value) 
initialization - INITCONST; 

else 
initialization = INITVARIABLE; 


} else { 
/* 
* An initialization expression must be present if 
* so indicated by <const option>. 
*/ 
if («constant option».const option.is constant) 
Produce an "Initialization required" error message 
initialization = INITNONE; 
} 


for (each identifier in «idlist-) 1 
Call enter() to put the identifier in the current 
scope of the symbol table 
if (it is already there) 
generate an appropriate error message 
else if (! «constantoption».const option.is constant 
|| initialization = INITVARIABLE) | 
Allocate storage for the variable, recording its 
offset in the local variable offset. (The size of 
the block of storage to allocate is obtained from 
«type or subtype>.type ref.object_type.size) 
The following expression describes the attribute 
record to be created for the variable: 
(attributes) i 
.class = VARIABLE; 
.id type = «typeorsubtype».type ref.object type: 
.id = the id entry returned by enter (); 
.var address = (struct address) { 
.var level = current nesting level; 
.var offset - offset; 
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.indirect - FALSE; 
.read only = 


«constant option>.const_option.is constant; }; 


} 


if (initialization != INITNONE) 
Generate assignment code to initialize 
the object. 
) else /* the identifier names a literal constant */ 


The following expression describes the attribute 
record for the identifier: 


(attributes) { 
.class 三 CONST, 
.id type = <type or subtype».type ref.object type: 
id = the id entry returned by enter (); 
.value = c«initialization option». data object.value; } 





图 10-9 (£X) 
另 一 种 语义 记录 DATAOBJECT 在 第 11 章 里 定义 。 


10.3.2 枚 举 类 型 


枚 举 类 型 由 一 个 不 同 标识 符 的 列表 来 定义 。 其 中 每 个 标识 符 是 该 枚 举 类 型 的 一 个 常量 。 这 些 常量 按 

它们 在 该 类 型 定义 中 的 位 置 排序 并 由 整数 值 来 表示 。 通 常 ， 代 表 第 一 个 标识 符 的 值 是 9， 所 有 其 他 标识 

符 的 值 比 列表 中 它 的 前 驱 的 值 多 1。(C 语 言 中 enum 类 型 允许 程序 员 可 以 选择 性 地 指定 枚 举 常量 的 值 。 此 

外 ， 这 些 值 是 有 符号 的 整数 ， 而 非 无 符号 的 整数 。) | 
«enumeration type definition> 的 语法 以 及 相应 的 语义 动作 记号 如 下 : 


<enumeration type definition» — ( «enumeration id list» 4tfinish. enum type ) 
<enumeration id list» — IDENTIFIER first enum id 
(, IDENTIFIER stenum id) 


用 于 枚 举 类 型 声明 的 语义 记录 如 下 : 
struct enum_def { 
type descriptor *this type: 
attributes *last const; 
): 
type_descriptor 记 录 必 须 有 新 的 变 体 来 处 理 枚 举 类 型 : 
/* form == ENUMTYPE */ 
attributes *first const; 
attributes 记 录 也 必须 加 以 扩展 来 处 理 枚 举 类 型 常量 。 一 个 新 的 id_class， ENUMCLASS 必须 被 加 入 
以 处 理 枚 举 类 型 。 在 attributes 记 录 中 相应 的 变 体 是 : 


struct { /* class == ENUMCONST x*/ 
unsigned long enum value; 
struct attributes *next const; 
) 
其 中 ， 第 一 个 域 记 录用 来 表示 枚 举 常量 的 值 ， 第 二 个 域 创建 所 有 枚 举 类 型 常量 值 的 列表 。 
借助 枚 举 类 型 定义 ， 所 有 的 标识 符 在 处 理 前 都 不 必 放 在 栈 上 。 它 的 语法 告诉 我 们 ， 一 旦 分 析 器 看 见 
左 括号 就 确定 后 面 会 紧 跟 着 出 现 枚 举 类 型 定义 。 这 样 ， 一 旦 枚 举 常 量 被 分 析 器 所 接受 ， 跟 在 后 面 的 语义 
例 程 就 开始 处 理 它们 。£irst_enum_id( ) 为 新 类 型 分 配 type_descriptor， 并 用 那个 作为 参数 而 接收 


的 IDENTIFIER 作 为 枚 举 常 量 列表 的 开始 。 该 例 程 同 时 将 此 参数 作为 ENUMCONST 填 入 符号 表 。 
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enum_id( ) 用 它 的 IDENTIFIER 参 数 完成 同样 的 工作 ， 另 外 还 要 将 其 添加 到 枚 举 类 型 的 常量 列表 中 。 
finish enum id( ) 在 参数 类 型 定义 结束 处 完成 相关 的 处 理 ， 和 类 型 定义 的 通常 处 理 办 法 一 样 ， 这 里 也 
产生 TYPEREF 记 录 : 


first_enum_id(IDENTIFIER) => <enumeration id list> 
{ 

Allocate a type descriptor for an ENUMTYPE and let 
T point to it. 

Enter the IDENTIFIER into the symbol table. 
There may be more than one use of an identifier 
as enumeration constants of different types 
within a single scope (overloading), but an 
identifier used as an enumeration constant 
cannot have any other uses within a scope. 

Assuming an error is not reported, the identifier 
just entered into the symbol table has the 
following attributes record, A, associated 
with it: 

(attributes) ( 
.class = ENUMCONST; 
.id type = T: 
.id = the id entry returned by enter(); 
.enum value = 0; 
.next const = NULL; } 


Set T->size to INTEGERSIZE and T-»first const to point 
to the attribute record just created 
<enumeration id list» — (struct enum def) ( 
.this type = T; 
.last const = A; }; 
/* assuming A references the attributes record */ 


} 


enum id (<enumeration id list», IDENTIFIER) => <enumeration id list> 
{ 
Let ED rename <enumeration id list>.enum_def | 
Enter the IDENTIFIER into the symbol table. 
The same error checking must be done as in 
first enum id(). In addition, the identifier 
must not already be in the symbol table as a 
constant of the type currently being processed. 
Assuming an error is not found, create an ENUMCONST 
attribute record for the identifier with 
id type = ED.this type 
enum value - ED.last const.enum value * 1 
next const - NULL 
Set ED.last const.next const to point to the 
attribute record just created | | 
Set ED.last const to ED.last const.next const, thus 
adding the new attribute record to the end 
of the list 
<enumeration id list» <— the updated struct enum def 


) 


finish enum type (<enumeration id list») => «enumeration type definition» 


{ 
<enumeration type definition» «- (struct type ref) { 


.object type = «enumeration id list» .enum def.this type; } 


Ultimately, the enumeration type is represented by a TYPEREF record, 
as all types are. The type descriptor consists of a type descriptor record . 
that points to a list of attributes, one for each enumeration constant. 


最 后 ， 和 所 有 其 他 类 型 一 样 ， 枚 举 类 型 也 由 一 个 TYPEREF 记 录 来 表示 。 这 个 类 型 描述 符 由 一 个 
type_descriptor 记 录 组 成 ， 那 个 记录 指向 一 个 由 每 个 枚 举 类 型 常量 对 应 的 attributes 所 构成 的 列表 。 
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10.3.3 FAM 


FRA (subtype) 声明 命名 类 型 的 约束 型 应 用 。(C 语 言 设 有 约束 类 型 。) 由 于 子 类 型 和 类 型 在 多 数 
时 候 可 以 互 换 使 用 ， 因 此 子 类 型 也 可 以 由 type_descriptor 记 录 来 表示 。 为 描述 子 类 型 BEE 
type_descriptor 中 增加 新 的 变 体 ， 以 及 一 个 在 这 个 新 变 体 中 使 用 的 新 类 型 struct 
constraint des。 对 type descriptor 的 扩展 包括 : 


struct { /* £orm == SUBTYPE */ 
struct type des *base type; 
struct constraint des constraint; 


}; 
其 中 的 “约束 ”如 下 : 


enum constraint form ( DYNANICRANGE, STATICRANGE, 
UNCONSTRAINEDINDEX, ARRAYBOUNDS 
}; 


struct constraint des 定 义 大 致 如 下 : 


struct constraint_des { 
enum constraint form form; 
union { 
/* form == DYNAMICRANGE */ 
address range address; 
/* form == STATICRANGE */ 
struct ( long lowerbound, upperbound; }; 
/* form zs UNCONSTRAINEDINDEX - empty */ 
/* form == ARRAYBOUNDS */ 
struct ( 
struct index list *bounds; 
struct address dope vector addr; 
}; 
}; 
): 


下 面 的 产生 式 给 出 了 子 类 型 定义 和 声明 的 语法 。 它 包括 两 种 基本 形式 : 范围 约束 用 于 离散 类 型 ， 下 
标 约束 用 于 非 约 束 数组 类 型 。 非 终结 符 <range> 在 语言 的 其 他 特性 中 也 有 大 量 的 应 用 (例如 ， 在 for 
346| ”loop 循 环 里 )。 


«subtype- — «type name- 
«subtype» — «subtype definition» 
«subtype declaration» 一 subtype «id» is 
«subtype definition» «subtype decl 
«subtype definition» — «type name» «range constraint» frange subtype 
«subtype definition» — «type name» «index constraint ffarray subtype 
«range constraint» — range «range» 
«range» — «simple expression» .. «simple expression 
frange pair 
«index constraint» — ( «discrete range» sstart index list 
(, «discrete range» append index) ) 
«discrete range» — «subtype» 
«discrete range» — «range» 


处 理子 类 型 不 需要 额外 的 语义 记录 类 型 。 处 理 范围 约束 的 语义 例 程 也 是 如 此 。 辅 助 语义 例 程 
start index list(). append_index() #larray_subtype( ) 在 10.3.4 节 随 数组 一 起 讨论 。 在 这 个 
小 节 里 ， 我 们 感 兴趣 的 是 那些 定义 范围 约束 的 子 类 型 。 范围 约束 可 用 于 任何 离散 类 型 ， 对 Ada/CS 而 言 ， 
它 包括 整 型 和 任何 用 户 定义 的 枚 举 类 型 。 正 如 它 的 名 字 所 暗示 的 ， 子 类 型 没有 定义 新 的 类 型 。 相 反 地 ， 
它 描 述 了 基 类 型 的 在 一 个 受 约束 范围 内 的 值 。 当 变量 被 声明 为 特定 的 子 类 型 时 ， 编译 器 必须 确保 任何 赋 
给 该 变量 的 值 在 所 允许 的 范围 内 。 如 果 此 条 件 不 能 被 编译 时 的 分 析 所 识别 ， 则 需要 添加 运行 时 检查 。 

动作 例 程 range_paiz( ) 从 作为 范围 边界 而 给 出 的 两 个 表达 式 中 建立 struct constraint des. 
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range_subtype( ) 为 子 类 型 建立 type_descriptor。 这 些 步骤 是 分 开 的 ， 因 为 非 终结 符 <range> 既 可 以 
出 现在 子 类 型 定义 中 又 可 以 出 现在 文法 的 其 他 上 下 文中 。 


range pair(<simple expression>,, «simple expression>>) => «range» 
{ 


Check that the two expression entries are of the same 
discrete type. 

If they both denote compile-time constants, then this 
is a static range; otherwise, it is dynamic. 


if (the constraint is static) { 
Create the following compile-time constraint 
descriptor, C 
(struct constraint des) ( 
.form = STATICRANGE; 
.upperbound = (long) («simple expression», .expr.value) ; 
.lowerbound = (long) («simple expression>, .expr.value); } 


} else { /* the constraint is dynamic */ 
Allocate space in the data area of the current 
activation record for a run-time descriptor 
(2*INTEGERSIZE words, one for each of 
the bounds). . 
Generate code to store the bounds into the 
descriptor. 
Create the following compile-time constraint 
descriptor, C: 
(struct constraint des) { 
.form = DYNAMICRANGE; 
.address = - - - ; }; 
/* the space just allocated */ 


) 


The type descriptor, T, for the range will be: 
(type descriptor) i 
.form = SUBTYPE; 
.gize = «Simple expression>z.expr.expr_type. size; 
.base type = «Simple expression»;.expr.expr type; 
.Constraint = C; ) 


«range» + (struct type ref) { .object type = T; ) ; 
} 


range_subtype (<type name», 
«range constraint») => «subtype definition> 


{ 
«range constraint».type ref.object type.base type 
must refer to the same type as 
«type name».type ref.object type. 
if («typename».type ref.object type is constrained) 
The new constraint must not be less restrictive 
than the old one. 
if (no errors) 
«subtype definition» + «range constraint» 


else 
«subtype definition» ¢- an ERROR record 


subtype decl(«id», «type definition») 


/* same as type decl()... xf 
type decl(«id», «type definition») ; ; 


10.3.4 数组 类 型 


Ada 和 Ada/CS 包 括 两 种 形式 的 数组 定义 : 约束 数组 与 非 约束 数组 。 约 束 数组 类 型 有 固定 数目 的 元 素 ， 
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尽管 元 素 个 数 可 以 由 仅 在 运行 时 计算 的 表达 式 来 指定 。 非 约束 数组 类 型 仅 通过 定义 数组 的 下 标 类 型 来 指 
定 ， 它 的 元 素 个 数 留待 以 后 说 明 且 随 下 标 类 型 实例 的 不 同 而 变化 。 非 约束 数组 类 型 的 任何 实例 的 大 小 都 
可 以 在 编译 器 时 确定 ， 也 可 以 像 约束 数组 类 型 那样 ， 由 运行 时 表达 式 的 值 来 决定 。 

实现 动态 数组 | 

约束 数组 类 型 或 子 类 型 的 变量 ， 若 其 边界 是 在 运行 时 而 非 编 译 时 计算 的 ， 则 它们 常常 被 称 为 动态 数 
组 (dynamic array )。 在 程序 的 不 同 执行 需要 大 小 不 同 的 数组 时 ， 这 种 数组 大 小 的 迟 后 绑 定 就 常常 显得 非 
常 方便 了 。 然 而 ， 它 带 来 的 问题 是 : 用 于 存放 动态 数组 的 空间 不 能 被 分 配 在 活动 记录 中 ; 这 种 数组 的 大 
小 在 编译 时 刻 当 AR 偏 移 均 固定 时 仍 是 未 知 的 。 我 们 所 采取 的 办 法 是 : 在 AR 中 放 一 个 用 于 边界 约束 的 大 
小 固定 的 描述 符 〈 通 常 称 之 为 内 情 向 量 (dope vector) )。 这 个 内 情 向 量 中 包含 了 用 于 存放 计算 后 的 边界 
的 空间 。 这 种 类 型 的 变量 可 以 用 包含 其 元 素 地 址 的 字 以 及 ( 隐 式 地 ) 用 内 情 向 量 来 表示 。 当 一 个 过 程 被 
调用 时 ， 它 将 计算 动态 数组 类 型 的 边界 ， 并 在 紧 随 当前 AR 之 后 的 栈 上 分 配 每 个 动态 数组 的 空间 。 此 空间 
的 地 址 放 在 与 每 个 动态 数组 相关 的 指定 位 置 上 ， 所 有 对 数组 元 素 的 引用 将 通过 这 个 指针 来 进行 。 例 如 ， 


procedure P (N : Integer) is 
A, B: array(1..N) of Integer, 


end P; 


数组 A 和 B 的 大 小 在 调用 P 时 确定 。 首 先 ，P 的 (大 小 固定 的 ) ARdEHAGR E, aN REA ATA 
量 。 最 后 ， 在 栈 上 分 配 A 和 B 的 空间 。 这 些 操作 导致 如 图 10-10 所 示 的 栈 结构 。 







数组 B 的 空间 


A 
数组 A 的 空间 «——— P 的 活动 记录 的 结束 
= 


a | 


—_ PP 的 话 动 记 录 的 开始 
图 10-10 带 有 动态 数组 的 活动 记录 
在 块 中 声明 的 动态 数组 可 以 和 在 过 程 中 声明 的 动态 数组 一 样 处 理 。 如 果 使 用 块 级 的 分 配 策略 ， 操 作 


| 将 很 简单 ， 即 先 压 入 块 的 AR ， 然 后 再 压 和 人 它 包含 的 所 有 动态 数组 的 空间 。 


但 如 果 使 用 过 程 级 的 分 配 策略 ， 那 情况 又 会 如 何 呢 ? 同 以 前 一 样 ， 包 含 所 有 局 部 变量 〈 动 态 数组 至 
间 除 外 ) 的 AR 首先 被 压 入 栈 中 。 动 态 数组 的 空间 在 进入 包含 它们 的 块 时 分 配 。( 和 过 程 一 样 ) 我 们 为 每 
个 块 维持 一 个 stack_top 值 。stack_top 指 向 块 中 动态 数组 空间 的 末端 。 当 进 入 块 时 ， 它 的 
stack top 值 是 从 包围 它 的 块 (车 没有 ， 则 从 包围 它 的 过 程 ) 中 的 值 继 承 的 。 该 值 指示 了 在 哪里 可 以 分 
配 动态 数组 并 随 着 局 部 动态 数组 空间 被 压 入 栈 中 而 增加 。 当 退出 块 时 ， 仅 需 恢复 使 用 包围 它 的 块 的 
stack top 值 而 无 需 额 外 的 工作 。( 这 种 方式 容易 实现 跳出 块 的 exit 和 goto 语 句 。) 作为 示例 ， 重 新 考虑 
前 面 那个 现 已 添加 块 的 例子 : 
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procedure P (N : integer) is 
A : array(1..N) of Integer; 
begin 
declare 
B : array(1..N) of Integer; 
in 


- end, 
end P; 


图 10-11 说 明了 使 用 块 级 stack_top 值 创建 的 栈 结构 。 












| 为 数组 B 分 配 的 空间 “| 
为 数组 A 分 配 的 空间 。 | 









«—— —- -P 的 话 动 记录 的 开始 
图 10-11 带 有 块 级 stack_top 值 的 活动 记录 
有 了 动态 数组 ， 编 译 器 不 再 知晓 每 个 子 程序 的 调用 在 运行 时 栈 上 所 需 的 确切 的 空间 数量 。 此 决定 


必须 等 到 运行 时 才能 做 出 ， 所 付出 的 相关 代价 是 ， 在 活动 记录 中 需要 存放 内 情 向 有 量 及 stack_toP 值 的 


点 间 。 在 每 个 数组 引用 上 需要 花费 时 间 ， 以 便 访问 内 情 向 量 并 从 中 获取 边界 信息 以 计算 下 标 和 进行 边 
界 检查 (在 第 11 章 讨论 )。 另 外 ， 在 块 入 口 也 需要 时 间 用 于 分 配 数组 。 

语义 例 程 array def() 处 理 动态 数组 定义 的 方式 与 静态 数组 赂 有 不 同 ， 主 要 区 别 在 于 用 内 情 向 量 
占用 的 空间 (而 不 是 数组 元 素 占用 的 空间 ) 来 填写 记录 type_descriptor() 的 size 域 。 在 声明 动态 数 
组 类 型 及 动态 数组 变 景 时 ， 例 程 array_def() 和 object_decl() 必须 分 别 为 它们 生成 用 于 填 入 内 情 向 
量 并 分 配 动态 数组 空间 的 代码 。 
Ada 数 组 的 语义 例 程 4 

可 以 采用 两 种 稍 有 不 同 的 语法 形式 来 指定 Ada/CS 中 的 两 种 数组 (约束 数组 和 非 约束 数组 )。 它 们 被 
表示 在 下 面包 括 了 动作 符号 的 产生 式 中 : 


«array type definition» — «unconstrained array definition» 
«array type definition» — «constrained array definition» 


«unconstrained array definition 一 
array <unconstrained index list> of <element type> #array_def 


<unconstrained index list> — ( «index subtype def» 
 3tstart index list (, «index subtype def» ftappend index) ) 
«index subtype def> 


— 
«type name» range <> situnconstrained index 


«constrained array definition: m 
array «constrained index list» of «element type» saray def 
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<constrained index list> 
( «discrete range» #start_index_list {, -discrete range» &append index) ) 


«discrete range» — «subtype» 
«discrete range» — <range> 
<element type> |. — «type or subtype> 


因为 数组 可 以 用 下 标 类 型 的 列表 来 定义 ， 所 以 处 理 数组 需要 定义 一 个 新 的 类 型 以 构造 这 些 列表 : 


struct index_list { 
type descriptor *index type; 
struct index list *next; 

}; 


type _ descriptor 记 录 需 要 以 下 变 体 替代 10.2.1 节 中 的 相应 部 分 来 处 理 Ada/CS 数 组 类 型 : 


struct { /* form == ARRAYTYPE */ 
struct index list *index types; 
struct type des *element type; 
}; 


为 处 理 下 标 列表 也 需要 定义 新 的 语义 记录 类 型 : 


struct index list type { 
struct index list *list; 
boolean constrained: 


): 


通过 对 前 面 数组 语法 中 的 语义 动作 标记 进行 检查 ， 我 们 可 以 清楚 地 看 到 ， 处 理 约束 数组 定义 所 做 的 
工作 和 相应 处 理 非 约 束 数组 所 需 做 的 工作 相 比 ， 并 没有 什么 太 大 的 区 别 。 为 使 用 相同 的 例 程 来 处 理 这 两 
种 情况 ， 我 们 必须 保证 非 约 束 的 <index subtype def> 和 <discrete range> 的 语义 记录 表示 是 一 样 的 。 为 
此 ， 我 们 需要 将 它 用 一 个 TYPEDEF 记 录 来 表示 。unconstrainted_index( ) 为 非 约束 子 类 型 构造 合 运 
的 描述 符 : 


unconstrained index (<type name>) => «index subtype def> 
{ 
«type name».type ref must describe a discrete type. 
«index subtype def» < (type descriptor) 1 
.form = SUBTYPE; 
.size = «typename».type ref.object_type.size; 
.base type = «type name» .type ref.object type: 
.constraint x (struct constraint des) { 
.form = UNCONSTRAINEDINDEX; ) ; 
) 
) 


{i start index list() 和 append_index() 来 处 理 非 约束 的 和 约束 的 下 标 列表 。 在 它们 的 参 
数列 表 和 返回 值 描 述 中 ， «index subtype> 要 么 表示 <index subtype def> 要 么 表示 <discrete range», 
而 <index list> 要 么 表示 <unconstrained index list> 要 么 表示 <constrained index list». 
start index list() 处 理 下 标 列表 中 的 第 一 个 下 标 类 型 。 它 构造 INDEXLIST 语 义 记 录 ， 这 个 语义 记 
录 包 含 该 列表 中 第 一 个 <index subtype> 的 条 目 。 | 


start index list (<index subtype>) => «index list» 
{ 
type descriptor *T; 


T c— «indexsubtype».type ref.object type 
<index list> «- (struct index list type) { 
.constrained = 
(T.constraint.form != UNMCONS 2AAITNED INDEX) ; 
list = (struct index list type) { 
.list-»index type = T, 
.list-»next = NULL; ) ; 
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append index( )#<index list> 相 关 的 列表 添加 十 一 个 下 标 子 类 型 : 


append_index (<index list>, «index subtype») => «index list» 
{ 
Append the index type referenced in 
«index subtype».type ref to the end of the list 
referenced in «index list». index list 
«index list» — the new struct index . list 
} 


array_def( ) 给 每 个 类 型 定义 创建 一 个 类 型 描述 符 。 其 中 为 非 约束 数组 建立 的 是 ARRAYTYPE 类 型 
描述 符 ， 而 为 约束 数组 建立 的 是 SUBTYPE 类 型 描述 符 。SUBTYPE 类 型 描述 符 可 以 用 作 变 量 的 类 型 ， 而 
ARRAYTYPE 类 型 描述 符 却 不 行 。 后 者 必须 添加 下 标 约束 以 创建 子 类 型 。 动 作 例 程 array_def ( ) 被 描述 
在 图 10-12 中 。 图 10-13a、b 给 出 了 为 非 约 束 数 组 和 约束 数组 创建 的 类 型 描述 符 的 结构 示例 . 


array def (<index list>, «element type>) => «array type definition> 


{ 
Create a new type descriptor, T, for the array type: 


if (<index list>.index_list.constrained == FALSE) { 
T « (type descriptor) { - 
.form = ARRAYTYPE; 
_gize = ADDRESSSIZE; /* space for the array adr */ 
.element type = <element type>.type_ref.object_type: 
.index types = <index list>.index list .list; }; 


} else ( /* «indexlist-.index list.constrained == TRUE */ 
Allocate space in the current activation record 
for a dope vector, 2 integers for each entry on 
<index list>. Create a struct address describing 
the location of the dope vector and call it 
DV addr. 


Generate code to copy the static and dynamic 
bounds descriptors on «indexlist» into the 
appropriate locations in the dope vector. 


T — (type descriptor) ( 
.form = SUBTYPE; . 
.Size = ADDRESSSIZE; /* space for the array adr */ 
.base type = (type descriptor) { 
.form = ARRAYTYPE; 
.size = ARRAYDESCRIPTORSIZE; 
.element type = 
«element type» .type ref.object type, 
.index types - NULL; ); 
.constraint = (struct constraint des) { 
.form = ARRAYBOUNDS; 
.dope vector addr = DV_addr; 
.bounds = <index list>. index _ list.list; ) ; 


«array type definition» «— (struct type ref) ( 
.Object type = T; } ; 





图 10-12 动作 例 程 array def() 


对 于 所 有 下 标 范围 均 为 编译 时 常量 的 约束 数组 子 类 型 ， 不 需要 采用 运行 时 描述 符 。 作 为 一 种 优化 ， 
可 以 在 编译 时 在 当前 数据 区 中 分 配 这 种 数组 ， 其 大 小 为 : 

element type.size * (product of all index lengths) 

使 用 前 面 的 例 程 ， 约 束 数 组 类 型 的 定义 将 导致 两 个 类 型 描述 符 的 创建 :一 个 是 用 于 所 定义 数组 的 实 
际 边界 的 子 类 型 描述 符 ， 另 一 个 是 底层 数组 类 型 本 身 的 描述 符 。 然 而 ， 后 者 的 记录 域 index_types 包 含 一 
个 NUIL 指 针 而 不 是 一 个 指向 非 约束 离散 类 型 列表 的 指针 。 这 样 的 一 个 列表 可 以 从 子 类 型 描述 符 的 pounads 
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array (Integer range <>, Integer range <>) of Integer 
type descriptor type descriptor 


form => array. type M form => integer 
Size => 2 oger-type 










size => 2 
index types => 
element type => 


















index list node 


form => subtype 
Size => 2 

base type => 
constraint => 






constraint_descriptor 


M form => unconstained index 






index list node 


p this type => 
next => null 





form 2» subtype 
size => 2 


base_type => 
constraint => 





constraint_descriptor 
M form => unconstained_index 


a) 韭 约 来 数组 类 型 的 type descriptor 


a, 


array (1..10, 1..20) of integer 
type_descriptor type_descriptor 


form => array_type 
size => 2 
index_types => null 
element_type => 






form => subtype  , 
size => array_descriptor_size 





constraint => 





constraint_descriptor type_descriptor 
form => array_ranges M form => integer 
bounds => yrange size => 2 eger. type 
dope vector, addr 











index list node 


this type => 
next z» 


form => static range. 
lower | => 1 
upper bound => 10 


index fist, node 


this type => 
next => null 


lower bound => 1 
upper bound => 20 


b) 约束 数组 类 型 的 type_descriptor 
图 10-13 约束 数组 和 非 约束 数组 的 type_descriptor 


各 10 ¥ 


列表 中 的 所 有 类 型 的 base_types 来 构造 ， 但 由 于 编译 器 从 来 不 使 用 该 列表 ， 因 此 我 们 设 有 必要 建立 它 。 
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指定 下 标 约束 的 子 类 型 
数组 约束 子 类 型 的 相关 语法 如 下 : 


«subtype definition» — «type name» «index constraint» #array_ subtype 
«index constraint» — ( «discrete range» ststart index list | 
{ «discrete range> #append_index} ) ' 356 


下 标 约束 仅 能 应 用 于 非 约束 数组 类 型 。 列 表 中 的 每 个 <discrete range> 给 由 <type name> 所 指示 的 
数组 中 相应 位 置 上 的 下 标 提供 一 个 约束 。 同 前 面 描述 的 约束 数组 定义 一 样 ， 该 子 类 型 也 由 一 个 带 有 指 癌 
约束 列表 的 SUBTYPE 变 体 的 类 型 描述 符 记录 来 指定 。 

因为 我 们 之 前 已 经 描述 了 语义 例 程 start_index_1list() 和 append_index()， 所 以 现在 仅 需 要 
考虑 一 个 新 的 例 程 array_subtype() ， 它 建立 SUBTYPE 类 型 描述 符 : - 


array subtype («type name», <index constraint>) => «subtype definition» 

{ 

«index constraint». index list references a list of 

subtype descriptors for discrete ranges. 

«type name».type ref represents the unconstrained 

array type. 

Check that this is an unconstrained array type. 

Check that the discrete ranges on the struct index list 
are valid constraints for the corresponding index 
types of the array. The number of constraints must 
match the number of index types in the array. ü 

Allocate space in the current activation record for a 
dope vector, with an entry corresponding to 
each index on «index list». 

Create a struct address describing the location of 
the dope vector and call it DV addr. 

Generate code to copy the static and dynamic 
bounds descriptors on the list referenced by 
«index constraint» into the appropriate 
locations in the dope vector. 


Construct a new type descriptor, T: 
(type descriptor) { 
.form = SUBTYPE; 
.Size = ARRAYDESCRIPTORSIZE; 
.base type = «typename».type ref.object type; 
.constraint = (struct constraint des) 1 
.form = ARRAYBOUNDS; 
.dope vector addr = DV addr; 
.bounds - «index constraint» . index list.list; 


) : 
) 


«subtype definition» « (struct type ref) { 
.object type = T; }; 
) 


通过 将 下 标 约束 应 用 于 先前 定义 的 非 约束 数组 类 型 而 定义 的 约束 数组 子 类 型 ， 可 以 由 一 个 子 类 型 描 
述 符 来 表示 ， 这 个 子 类 型 描述 符 就 像 我 们 为 约束 数组 定义 所 创建 的 描述 符 一 样 。 因 此 ， 这 两 种 定义 性 方 ”|357 
法 产生 的 描述 符 有 效 等 价 。 而 差别 在 于 后 者 ， 如 先前 所 讨论 的 ， 会 导致 底层 数组 类 型 描述 符 的 
index 1ist 域 为 NULL 。 在 前 面 描述 的 语义 例 程 中 ， 这 个 下 标 列表 仅 用 于 检查 约束 列表 ， 而 它 在 一 个 无 
名 数组 类 型 中 没有 任何 用 处 。 
”如 果 在 图 10-13a 中 定义 的 非 约束 数组 类 型 被 命名 为 A， 则 通过 指定 的 下 标 约束 所 创建 四 类 型 “ 
结构 如 图 10-14 所 示 。 


10.3.5 变 体 记 录 
恋 体 记录 移 许 在 单个 记录 类 型 中 描述 可 供 选 择 的 成 员 列 表 。 每 个 变 体 描 述 了 与 特定 的 (Ada) 判别 
式 的 值 或 (Pascal 和 Ada/CS ) 标签 域 对 应 的 记录 成 员 。 
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A(1..10, 1..20) 


type_descriptor type_ descriptor type_descriptor 

















form => subtype Ba form => arra > mi 
size => array descriptor size size => 2 y-pe form => integer. type 
base type -» 


constraint z» 















type descriptor . index list node 


ba form => integer type Ba this type => 
size => 2 next => 


constraint_descriptor 


Ba form => subtype 
size => 2 

base_type => 
constraint => 


M form => array ranges 
bounds => 
dope_vector_addr 








constraint_descriptor 


D form => subtype 
size => 2 

base_type => 
constraint => 


pi form => static range 
lower bound x» 1 
upper bound => 10 


type descriptor 





index list node 


constraint, descriptor 


$ form => unconstrained index 







ba form => subtype 
Size => 2 

base_type => 
| constraint => 








P4 this _ 一 > 
next => null 


constraint_descriptor 





bt farm => static range 
lower bound => 1 
upper bound => 20 


358 10-14 在 非 约 束 数组 类 型 中 应 用 下 标 约束 的 type_descriptor - 


为 简化 变 体 记 录 的 编译 技术 介绍 ，Ada/CS 所 定义 的 变 体 记录 特性 在 某 种 程度 上 比 Ada 所 定 义 的 变 体 
记录 特性 要 简单 一 些 。 包 含 变 体 的 记录 定义 的 语法 如 下 : 


«record type definition» — récord #start_record «component list» 
stend, record end record 


«component list» — «component declaration» 
{ «component declaration» } 
«component list — («component declaration» } «variant part» 
«component list» — null ; 
«component declaration» — «id list» : «type name> ; s&field decl 
«variant part» — — — case «id» : «type name» fftag field is 
«variant» ( «variant» ) tend variant part 
end case ; 
«variant» — when «choice» stnew variant 
=> «component list» 
«choice 一 «simple expression» 


为 描述 变 体 列表 ， 我 们 需要 一 个 新 结构 : 


struct variant_des { 
| long choice value; 
attributes *tag field, *field list; 
struct variant des *inner variants; 
struct variant des *next variant; 








RA 


对 记录 定义 的 语义 记录 类 型 必须 加 以 扩展 以 包括 一 个 变 体 描述 符 的 指针 ， 这 个 指针 指向 当前 正在 处 理 的 
最 内 层 变 体 : 


struct record def { 
type. descriptor *this type: 
address range next offset; 
struct variant des *current ` variant; 


): 


因为 变 体 可 以 嵌 套 ， 所 以 在 进入 嵌 套 的 变 体 部 分 时 ， 需 要 一 个 语义 记录 类 型 来 保存 cuzrent_variant 
的 值 : | 359 


struct variant part ( 
struct variant des *outer variant; 
attributes *tag field: 

}; 


像 RECORDDEF 语 义 记 录 一 样 ， 在 type | descriptor 记 好 中 扩 述 记录 的 变 体 也 必须 加 以 扩展 


struct { /* form == RECORDTYPE */ 
symbol table fields; 
attributes *field list; 
struct variant des *variant list; 
}; 


被 field_list 所 引用 的 域 列表 仅 包含 那 些 在 记录 定义 中 的 变 体 部 分 前 面 声明 的 成 员 。variant_list 
域 指向 struct variant_des 记 录 的 列表 ， 其 中 每 个 记录 包含 定义 单个 变 体 的 域 列 表 。 因 此 ， 对 变 体 记 
录 来 说 ， 重 要 的 是 将 所 有 的 域 保 在 到 符号 表 中 而 不 仅仅 存放 在 上 述 列表 中 。 否 则 ， 域 名 的 搜索 将 会 是 很 
复杂 且 相 对 低 效 的 。 
在 考虑 记录 类 型 中 的 变 体 域 时 ， 需 要 在 attributes 记 录 的 EielLd 变 体 中 添加 两 个 额外 的 域 以 描述 
记录 域 : | 
struct ( /* class == FIELD */ 
address range field offset: 
attributes *next field; 
struct variant des *enclosing variant; 
boolean is tag: 
}; 
enclosing variant 引 用 的 struct variant _ des 记录 是 内 层 变 体 的 外 层 包 围 变 体 ， 它 的 值 为 NULL 则 
表示 记录 域 不 是 某 变 体 的 一 部 分 。is -taghni E SARAT, FEEL TRER EA LRR, 该 标志 
也 是 必需 的 。 
例 程 start_record() 中 仅 需 改动 的 是 : 为 添加 到 type_ sescriptor 中 的 大 以 及 用 于 处 理 变 人 的 
struct record _def 记 录 指 定 合适 的 初 值 。 


start record(void) => record 
{ 
Create a type descriptor, T, as follows: 
(type_descriptor) { 
.form = RECORDTYPE; 
size = 0; 
.field list = NULL; 
.variant list = NULL; 
.fields x create(): ): . 
record — (struct record def) ( .this type = T; 
.next offset = 0; 
.current variant = NULL; }; 
) - 


field_decl() 也 需 做 类 似 的 改动 ， 以 便 能 指定 is_tag 的 值 为 FALSE 以 及 在 为 每 个 域 创建 
attributes 记 录 时 将 enclosing_variant 赋 值 为 Rp.current variant。 
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需要 三 个 新 的 语义 例 程 来 处 理 变 体 : tag field(). new_variant()#lend_variant_part(). 
这 些 动作 例 程 的 调用 出 现在 以 下 的 语法 上 下 文中 : 


record { <component declaration> } <variant part> 一 
record ( «component declaration» ) case «id» : «type name> 
itag field is «variant» { «variant» ) tend variant part end case ; 
record { «component declaration» } case «id» : «type name> is 
{ «variant» ) «variant» 一 
record ( «component declaration» ) case «id» : «type name» is 
( «variant» ) when «choice» (new variant => «component list» 


tag field( ) 根 据 变 体 记录 中 的 标签 处 理 其 中 不 同 域 的 声明 ， 该 标签 在 运行 时 的 值 决定 如 何 解 释 记 
录 的 变 体 部 分 。 像 field_dec1l( ) 处 理 普通 的 记录 域 时 所 做 的 那样 ，tag_field( ) 也 修改 了 与 record 关 
联 的 语义 记录 。 另 外 ，tag_field( ) 还 创建 了 与 符号 case 相 关联 的 VARIANTPART 语 义 记录 。 特 殊 情 况 的 
柑 套 变 体 可 以 通过 将 record.record def. current variant 的 值 保 存在 variant_part 语 义 记 录 中 而 
得 到 处 理 : | 


tag field(record, «id», «typename») => (record, case) 
{ 
Let RD name the semantic record associated with record 


Enter <id> in the symbol table referenced by RD. fields 
if (it is already there) 

generate an appropriate error message 

else { 

The following expression describes the attribute 

record, A, to be created for the tag field. It 

is identical to that for other field except for 
the value of is tag. 

(attributes) ( 

.Class - FIELD: 

.id type = «type name> .type ref.object type; 
.id = the id entry returned by enter(); 
.field offset - RD.next offset; 

.next field = NULL; 

.enclosing variant - RD. current variant; 
.is tag = TRUE; } 

Allocate space for the field within the record by 
adding «type name».type ref. object type.size 
to RD.next offset 

if (RD.current variant == NULL) 

Add this attribute record to the end of the 
list referenced by RD.field list 

else 

Add this attribute record to the end of the 
list referenced by RD.current variant 


case — (struct variant part) { 
outer variant = RD.current variant; 
.tag field = A; }; 
RD.current variant z NULL; 
record — the updated RD 
) 


分 析 器 在 识别 出 变 体 标号 后 就 立即 调用 new_variant( ) 。 该 例 程 为 新 的 变 体 初始 化 struct 
variant des 记 录 并 将 它 链接 到 当前 记录 的 变 体 描述 符 列表 中 。 图 10-15 显 示 了 相应 的 RECORDDEF 语 义 
记录 以 及 在 调用 new_variant() 后 它 所 引用 的 结构 : 

new variant (record, case, <choice>) => record 


Let RD name the semantic record associated with record 


«choice» must describe a constant value, distinct from 
all other choice values on the list of 
variant descriptors referenced by RD .current variant 

Create a struct variant des, V, as described by the 
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following expression: 
(struct variant des) ( 
.Choice value = (long) «choice» ; 
.tag field = C8Se.variant |part.tag field; 
.field list = NULL; 
.inner. variants = NULL; 
.next variant. = RD. current variant; ) 


RD.current variant c— V 


record — the updated RD 


) 








图 10-15 变 体 处 理 时 的 RECORDDEF 语 义 记录 


就 像 它 的 名 字 所 提示 和 的 ，eng_variant part( ) 将 在 成 员 列 表 中 变 体 部 分 的 末尾 处 被 调用 。 可 通 
过 域 引 用 record.record def .current variant 来 访问 变 体 部 分 的 struct variant des 记录 列表 。 
在 把 这 个 列表 与 适当 的 包含 结构 ( 整个 记录 或 者 是 外 层 的 成 员 列 表 ) 的 描述 符 联系 后 ， 362. 
end variant _part() 恢 复 由 tag_field( ) 保 存 的 record.record def. Current variant 的 值 : 363 
end_variant_part (record, case, <choice>) => record 


Let RD name the semantic record associated with record 
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if (Ca36.variant record part .outer variant == NULL) 
RD.this type.variant list ¢ RD.current variant; 
else . 
case. variant record part. outer variant.inner variants 
«€ RD.current variant; 


RD.current variant 《一 
c8se.variant record part.outer variant; 
record — the updated RD; 
) 


为 了 少许 简化 前 面 的 讨论 和 数据 结构 ， 我 们 强行 限制 了 每 个 变 体 仅 有 单一 的 标号 。 而 大 多 数 允 许 变 
体 记录 的 语言 同时 允许 变 体 有 多 重 标号 ,可 以 在 struct variant_des 中 添加 两 项 扩展 来 处 理 多 重 标 号 ， 
其 一 是 必须 将 域 choice_value 从 类 型 10ong 改 为 到 值 列表 的 指针 ， 其 二 是 必须 添加 一 个 
sequence_numbezr 域 。 列 表 中 每 个 变 体 都 有 惟一 的 序列 号 。 这 个 值 在 运行 时 用 来 奉 代 标签 域 的 值 以 检 
查 变 体 的 合法 性 。 

为 描述 变 体 记录 所 构造 的 数据 结构 如 图 10-16 所 示 。 





图 10-16 变 体 记录 的 type descriptor 


10.3.6 访问 类 型 

Ada 中 动态 分 配 的 对 象 可 以 通过 访问 (access) 类 型 来 引用 ,访问 类 型 等 价 于 其 他 语言 中 的 指针 或 
引用 类 型 。 编 译 访问 类 型 的 声明 相当 简单 ; 而 提供 它们 所 需 的 运行 时 支持 却 非常 复杂 。 这 里 所 需 的 支持 
包括 在 第 9 章 里 讨论 过 的 堆 分 配 机 制 。 

我 们 感 兴趣 的 语法 是 : 


«type definition» -> access «subtype» s&access type 
«type decl» — type IDENTIFIER incomplete type 


为 处 理 访问 类 型 ， 需 要 在 type_descriptor 中 添加 一 个 新 的 变 体 : 


/* form == ACCESSTYPE */ 
struct type des *reference type; 
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而 为 处 理 不 完整 的 类 型 ， 需 要 添加 另 一 个 新 的 变 体 : 


/* form == INCOMPLETETYPE */ 
struct type des *dependent type; 


在 Ada 和 Ada/CS 中 引入 不 完整 的 类 型 声明 ， 用 来 处 理 访问 类 型 声明 中 的 前 向 引用 一 一 例如 ， 用 来 定 


义 自 引用 类 型 。 下 面 取 自 Ada 语 言 参 考 手 册 的 例子 说 明了 不 完整 类 型 的 使 用 : 


type Cell; — incomplete type declaration 
type Link is access Cell; — Cell must already be declared 


type Cell is 
record 
Value : Integer; 
Succ : Link; 
Pred : Link; 
end record; 


所 需 的 语义 例 程 描述 如 下 。 其 中 ，access_type( )fllincomplete type( )Jüiiortype descriptor 
ia. JEJh, incomplete _type( ) 还 建立 一 个 符号 表 条 目 ，access_type( ) 检 查 所 引用 的 类 型 是 否 为 
不 完整 的 类 型 。 如 果 是 ， 则 将 正在 声明 的 类 型 保存 为 依赖 这 个 不 完整 类 型 的 类 型 。 


access type(<subtype>) => «type definition> 
{ 
Create a new type descriptor, T, for an access type: 
(type descriptor) { 
.form = ACCESSTYPE; 
.referenced type = <subtype>.type ref.object type; 
.size = ACCESSSIZE; ) 
/* ACCESSSIZE is target machine dependent */ 
if (T.referenced type.form == INCOMPLETETYPE) 
T.referenced type.dependent type - T; 


«type definition» c (struct type ref) ( .object type = T; }; 


- incomplete type (IDENTIFIER) 
( 


Create a new type descriptor, T, for an 
incomplete type: 

(type descriptor) ( 
.form = INCOMPLETETYPE; 
.dependent type = NULL; 


.size = 0; } /* a meaningless value */ 


The identifier is entered into the symbol table with 
the following associated attributes record: . 


(attributes) { .class = TYPENAME; 
.id type = T; f 
.id = the id entry returned by enter () ; } 
} 


不 完整 类 型 出 现 的 可 能 性 意味 着 对 前 面 概述 过 的 例 程 type_aecl ) 必须 加 以 扩展 以 检查 不 完整 类 
型 所 试图 声明 的 类 型 名 是 否 已 在 符号 表 中 。 如 果 是 的 话 ， 不 完全 类 型 的 type_descriptor 中 的 
dependent, type 域 将 用 来 更 新 使 用 这 个 不 完整 类 型 所 定义 的 访问 类 型 的 类 型 描述 符 。 然 后 ， 
INCOMPLETETYPE type descriptor 将 被 放 回 到 与 类 型 名 相关 联 的 属性 记录 中 。 为 妥善 起 见 ， 我 们 应 
当 关 注 针 对 不 完整 类 型 的 多 重 依赖 类 型 的 处 理 以 及 检查 所 有 的 不 完全 类 型 是 否 在 它们 出 现 的 作用 域 结束 
前 有 完整 的 定义 。 练 习 5 和 6 提出 了 处 理 这 些 问题 的 技术 。 


10.3.7 包 
包 人 允许 将 任意 的 声明 集合 组 装 在 一 起 并 用 一 个 名 字 来 命名 它们 ， Ada 中 的 包 声 明 包括 两 部 分 : 规范 
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部 分 (specification part) 和 包 主 体 (body )。 规 范 部 分 中 的 声明 不 同 于 那些 出 现在 私有 部 分 (Private 
part) 中 的 声明 ， 它 们 在 包 外 部 是 可 见 的 。 而 出 现在 私有 部 分 或 包 体 中 的 声明 只 有 在 包 的 内 部 是 可 访问 
的 。Ada/CS 人 允许 另外 一 种 形式 ， 即 把 这 两 部 分 合并 形成 单个 的 声明 ( 像 Modula-2 中 的 模块 )。 这 种 形式 
的 编译 涉及 较为 简单 的 符号 表 处 理 。 描 述 包 规范 部 分 、 包 主体 以 及 单个 的 声明 形式 的 产生 式 如 下 : 


<package declaration> — package <package spec of body> ; 


«package spec or body» — «id» #start_package is { <declaration> ) 
#end_visible_part [ «private part» ] «body option> 
end «id option» ; end package 

«package spec or body» — body «id» s/start package body is 
( «body declaration» ) ( «statement» ) end 
«id option» ; tend package 


«body option» . -» [body ( «body declaration» ) ( «statement» } 
stbody present ] 
«id option» = [«id» ffcheck package id ] 


包 编译 所 涉及 的 主要 问题 是 处 理 在 包 中 各 个 部 分 引入 的 名 字 的 可 见 性 。 出 现在 规范 部 分 中 的 名 字 
(不 包括 出 现在 私有 部 分 中 的 名 字 ) 和 过 程 的 参数 一 样 扮演 着 双重 角色 。 如 果 采 用 包 名 来 修饰 限制 ， 它 
们 可 以 在 包 的 外 围 作用 域 中 可 见 ， 这 就 像 记录 域 可 以 在 包含 记录 声明 的 作用 域 中 可 见 一 样 。 它 们 也 可 以 
直接 在 包 主 体 中 可 见 。 此 外 ， 如 果 包 名 在 use 子 句 中 出 现 ， 则 它们 可 以 在 外 围 作用 域 中 直接 可 见 。 

这 里 需要 一 个 新 的 语义 记录 类 型 : 


struct package {. 
boolean body_seen; 
attributes *old current package; 


}; 
attributes 记 录 必 须 包 括 用 于 处 理 包 的 一 个 变 体 : 


/* class == PACKAGENAME */ 
symbol table scope; 


相关 的 语义 例 程 描述 如 下 。start_package( ) 将 包 名 放 在 符号 表 中 并 设置 一 个 名 为 current_package 的 
全 局 变量 来 引用 相关 联 的 attributes 记 录 。 它 也 为 包 创 建 一 个 新 的 作用 域 并 使 之 成 为 新 的 当前 作用 域 : 


start package (<id>) => «package spec or body» 


{ 
Enter <id> in the symbol table of the current scope. 


Build a PACKAGENAME attribute record for it, creating 
a new symbol table to provide a value for scope. 
<package spec or body> < (struct package) { 
.body seen = FALSE; 
.Old current package = current package; } 
Assign a pointer to the new attribute record to 
current package. 
Call open scope() to make current _package->scope 
the current scope. 


} 
那些 在 调用 end_visible_part() 之 前 在 包 中 声明 的 标识 符 组 成 包 的 导出 名 字 集 。 
end visible | part (void) 


Mark all identifiers declared so far in the current 
scope as exported. (The scope is referenced by 
current package-»scope) 

) 


fend package() 在 规范 部 分 及 包 主 体 结 束 的 地 方 将 分 别 被 调用 。 它 使 用 由 start_Package( ) 所 创建 
的 语义 记录 中 的 信息 并 参考 由 current_package 所 引用 的 attributes 记 录 。 最 后 ， 它 将 
current package 重 置 为 调用 start_Package( ) 之 前 的 值 : 
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end. package («package spec or body») 
i 


if («package spec or body».package.body seen) { 
Check that all procedures specified in the 
visible part have had a corresponding 
body declaration. 
Delete all but the exported names from the 
current package-»scope 
Exit current symbol table scope, retaining the scope 
as an attribute of current package; 
current package < 
«package spec or body> .package .old current package 
} 
在 包 主 体 开 始 的 地 方 将 调用 start_package_body()。 它 希望 找到 与 它 的 <id> 参 数 相关 联 的 
PACKAGENAME attributes 记 录 : 
start package body («id») => «package Spec or body» 
( ` 
Find <id> in the symbol table and check that it names 
a package 
«package spec or body> « (struct package) { 
.body seen = TRUE; 
.Old current package = current . package: ): 


Set current | package to the attribute record found 
in the symbol table 


Make the scope found in the attribute record the 
current scope 


} 
check_package_id() 是 一 个 简单 的 动作 例 程 ， 用 来 确保 出 现在 包 规范 或 主体 结尾 处 的 标识 符 同 包 的 名 
字 匹 配 : | 

check package id(«id») 


{ 
Check that <id> names current_package 


} 


单 模块 的 包 形 式 中 使 用 的 body_present 指 示 包 体 已 被 处 理 ， 以 此 来 区 别 单 模块 包 与 包 的 规范 : 
body present (<package spec or body>) => <package spec or body> | | 


ge spec or body».package.body seen = TRUE; 
) 


过 程 规范 能 出 现在 包 规范 的 可 见 部 分 ， 它 们 相应 的 过 程 体 则 出 现在 包 主体 中 。 其 语法 如 下 : 

«declaration» — «subprogram specification» ; end proc spec 
end proc_spec() 将 在 上 述 规范 结尾 处 被 调用 。 由 于 它 所 做 的 处 理 与 其 他 处 理 过 程 的 动作 例 程 的 工作 
相关 ， 因 此 我 们 将 在 第 13 章 而 不 是 在 本 节 里 讨论 它 。 它 所 引入 的 主要 扩展 是 ， 要 求 处 理 过 程 声明 的 动作 
例 程 适应 在 符号 表 中 先前 已 存在 的 过 程 名 条 目 ， 其 属性 记录 仅 描述 了 过 程 的 规 厅 ， 这 其 中 最 为 复杂 的 工 
作 是 检查 参数 描述 符 列表 的 匹配 问题 。 
私有 类 型 和 私有 部 分 

以 下 声明 形式 只 有 在 包 的 可 见 部 分 才 是 合法 的 : 

<private type declaration> — type «id» is private #private_type_decl 


这 就 像 一 个 不 完整 类 型 声明 ,- 因为 它 把 类 型 名 填 人 符号 表 时 却 没 有 指定 它 所 表示 的 类 型 的 结构 。 私 有 类 
型 的 完整 类 型 声明 必须 出 现在 同一 个 包 规范 的 私有 部 分 。 只 有 类 型 名 在 包 外 可 见 ， 而 相应 的 类 型 声明 的 
细节 也 只 能 在 包 主 体 中 是 可 访问 的 。 

因此 ，private_type_dec1l() 将 <id> 填 入 符号 表 并 使 用 type_descriptor 的 以 下 扩展 为 它 建立 
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合适 的 类 型 描述 符 : 


struct { /* form == PRIVATETYPE */ 
struct type des *the type: 
attributes *containing package; 


}; 


private type decl (<id>) 

{ 
The identifier is entered into the symbol table with 
the following associated attributes record: 


(attributes) { 

.Class = TYPENAME; 

.id type = (type descriptor) { 
.form = PRIVATETYPE; 
.七 he type = NULL; 
.containing package = current package; } ; 

.id = tbe id entry returned by enter() ; } 

l 


包 规 范 的 私有 部 分 仅 可 以 包含 子 类 型 与 类 型 声明 : 


«private part» — — private «private item» ( «private item» ) 
«private item» — subtype «id» is «subtype definition» ; 
— type «id» is «non-private type definition» ; 
在 私有 部 分 ， 我 们 可 以 调用 type_decl() 来 寻找 已 声明 为 PRIVRATETYPE 的 标识 符 。 这 种 情况 下 ， 作 为 
参数 传递 给 type_dec1l ( ) 的 类 型 描述 符 可 用 来 填写 已 存在 的 类 型 描述 符 的 the_type 域 。 任 何 时 候 在 使 
用 类 型 描述 符 时 ， 我 们 都 必须 考虑 私有 类 型 这 个 特殊 的 情况 。 仅 当 类 型 描述 符 的 containing_package 
域 等 于 current_package 时 ， 我 们 可 以 使 用 the_tyPe 域 来 访问 类 型 表示 的 细节。 


10.3.8 _ attributes 和 semantics record 结构 


图 10-17 和 图 10-18 显 示 了 最 终 版 本 的 attributes 和 semantics _ record 结构 ， 它 们 包括 了 为 处 理 | 
在 本 章 讨论 的 各 种 特性 而 建议 添加 的 所 有 扩展 。 


#include "symtab.h" /* see Chapter 8 */ 
typedef short boolean; 


enum id class ( CONST, VARIABLE, ENUMCONST, FIELD, 
TYPENAME, PACKAGENAME }; 


enum type form { INTEGERTYPE, FLOATTYPE, STRINGTYPE, 
ENUMTYP ARRAYTYPE, RECORDTYPE, SUBTYPE, 
ACCESSTYPE, INCOMPLETETYPE, 


typedef unsigned long address range; 


struct address ( 
short var level; 
address range var offset; 
boolean indirect, read only; 
}; 


typedef struct attributes { 
id entry id; 
struct type des *id type; 
enum id class class; 
union { 
/* class zx CONST */ 





图 10-17 最 终 版 本 的 attributes 结 构 
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struct value type value; 



























/* class VARIABLE */ 
struct address var address; 


/* class == FIELD */ 
struct { 
address range field offset; 
struct attributes *next field; 
struct variant des *enclosing variant; 
boolean is tag; 
E 


/* class == TYPENAME --- empty variant */ 





/* class zz ENUMCONST */ 

struct { 
unsigned long enum value; 
struct attributes *next const; 

}; 


/* class == PACKAGENAME */ 
symbol table scope; 





):; 
) attributes; 


typedef struct type des { 
address range size; 
enum type form form; 
union { 
/* form => INTEGERTYPE, FLOATTYPE, STRINGTYPE, 
ERRORTYPE -- empty variant */ 


















/* form == ENUMTYPE */ 
attributes *first const; 





/* form == ARRAYTYPE */ 
struct ( 
struct index list *indextypes; 
struct type des *element type: 
hi 


/* form == RECORDTYPE */ 
struct { 

symbol table fields: 
attributes *field list; 

struct variant des *variant list; 





}; 


/* form == SUBTYPE */ 
struct { 

struct type des *base type: 
struct constraint des constraint; 





}; 











/* form == ACCESSTYPE xf 
struct type des *referenced type: 


/* form == INCOMPLETETYPE */ 
struct type des *dependent type; 


/* form »x PRIVATETYPE */ 
struct { 
struct type des *the type: 
attributes *containing package; 
) 
) type descriptor; 


enum constraint form ( DYNAMICRANGE, STATICRANGE, 
UNCONSTRAINEDINDEX, ARRAYBOUNDS ) 


图 10-17 (8%) 
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struct constraint des { 
enum constraint form form; 
union { 

/* form == DYNAMICRANGE */ 

address range address; 





/* form == STATICRANGE */ 
struct { 
long lowerbound; 
long upperbound; 
}; 


/* form == UNCONSTRAINEDINDEX --- empty variant */ 





/* form == ARRAYBOUNDS */ 
struct { 
struct index list *bounds; 
struct address dope vector addr; 
}; 
HE 
}; 






struct index_list { 
type descriptor *index type; 
struct index list *next; 

}; 










struct variant des { 
long choice value; 
attributes *tag field, *field_list; 
struct variant des *inner variants; 
struct variant des *next variant; 
}; 


extern attributes *current package: 


图 10-17 (88) 














struct id { string id; }; 


struct type ref { type descriptor *object type; }; 


struct record def { 

type descriptor *this type: 

address range next offset: 

struct variant des *current variant; 
): 


struct range ( long lower, upper; E 


struct const option ( boolean is constant }; 










struct enum def ( 
type descriptor *this type; 
attributes *last const; 






struct index list type { 
struct index list *list: 
boolean constrained: 

) 









struct variant part { 
struct variant des *outer variant; 
attributes *tag field; 


) 








struct package { 
boolean body seen; 
attributes *old current package; 


图 10-18 最 终 版 本 的 semantic_record 结 构 
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enum semantic record kind { ID, TYPEREF, RANGE, 
. CONSTOPTION, RECORDDEF, ENUMDEF, INDEXLIST, 
VARIANTPART, PACKAGE, MARK, ERROR ); 


struct semantic record ( 

enum semantic . | record : kind record kind; 

/* initialize to ERROR */ 

union { 
struct id id; /* ID */ 
struct type ref type ref; /* TYPEREF */ 
struct range range; /* RANGE */ 
struct const option const option; /* CONSTOPTION */ 
struct record def record def; /* RECORDDEF */ 
ztruct enum def enum def; /* ENUMDEF */ 
struct index list type index list; /* INDEXLIST */ 
struct variant part variant part; /* VARIANTPART */ 
struct package package; /* PACKAGE */ 
/* empty variant */ /* MARK */ 
/* empty variant */ /* ERROR */ 
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练习 


1. 概述 一 个 算法 ， 用 于 测试 采用 图 10-17 中 定义 的 形式 的 type_descriptor 记 录 所 表示 的 两 个 类 型 是 


否 结 构 等 价 。 
2， 使 用 图 10- 15 中 定义 的 type _qdescriptor 记 录 ， 给 出 为 描述 下 列 类 型 定义 而 创建 的 结构 : 


a. Fecord 
|, J : Integer; 
A: array (1..10) of Float; 
X, Y, Z : Float; 
end record; 


b. array (1..10) of 
record 
A, B : array (2..20) of Integer; 
F: Float, 375 


3， 为 以 下 声明 构造 相应 的 基于 图 10-17 中 声明 的 attributes 记 录 。 


A : constant Integer := 10; 


B : Integer; 
C : Integer := B+10; 


4. 使 用 图 10-17 中 定义 的 type_descriptor 记 录 ， 建 立 用 来 描述 以 下 类 型 和 子 类 型 定义 的 结构 : 
a. (Monday, Tuesday, Wednesday, Thursday, Friday); 


b. Integer range 1..10; 


c. record 
i, J : Integer; 
A: array (1..10) of Float; 
X, Y, Z : Float; 
end record; 
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d. record 

K : Integer; 

case T : integer is 
when 1 => A: Integer; 
when 2 => B : Float; 
when 3 => C : Integer; 

D : Float; 
end case; 
end record; 


， 描 述 应 如 何 改变 用 于 处 理 不 完整 类 型 ( 见 10.3.6 节 ) 的 type_descriptor 和 动作 例 程 以 应 对 针对 一 


个 不 完整 类 型 声明 的 多 重 依赖 类 型 。 


. 描述 为 检查 所 有 在 包 的 可 见 部 分 声明 的 私有 类 型 在 相应 的 包 私有 部 分 是 否 有 完整 的 定义 而 需 对 数据 


结构 和 动作 例 程 所 做 扩展 。 


， 在 以 下 的 类 型 声明 中 ， 假 定 T 是 未 定义 的 类 型 。 试 解释 此 时 在 语义 例 程 中 所 必须 采取 的 错误 处 理 方法 。 


type A is array (1..10) of array (1 ..10) of T; 


， 描 述 为 把 布尔 类 型 添加 到 10.2.2 节 描述 的 预定 义 类 型 的 列表 中 ， 需 要 对 数据 结构 做 何 种 改变 以 及 添加 


何 种 预定 义 的 标识 符 。 


， 给 出 练习 4a 中 枚 举 类 型 的 type_descriptor 的 构造 步骤 。 确 定 该 结构 每 一 步 的 改变 所 需 的 语义 例 程 


WR. 


， 举 出 类 型 声明 的 示例 来 说 明 图 10-17 中 定义 的 struct constraint des 记录 的 四 种 变 体 的 使 用 。 


给 出 以 下 类 型 的 type_descriptor 结 构 的 图 示 : 
type FloatArray is array (1..N) of Float; 
其 中 N 是 整 型 变量 。 


， 给 出 以 下 类 型 的 type_descriptor 结 构 的 图 示 : 


type ArrayRef is access FioatArray; 
其 中 FloatArray 在 练习 11 中 定义 。 


.扩展 图 10-15 中 的 变 体 记录 以 包含 一 个 三 套 在 变 体 中 的 变 体 部 分 。 给 出 在 内 层 变 体 部 分 中 调用 


new variant() 之 后 的 RECORDDEF 语 义 记 录 和 相关 联 的 结构 〈 像 图 10-15 中 那样 )。 


， 对 于 你 在 练习 13 中 定义 的 变 体 记录 ，( 像 图 10-16 中 那样 ) 给 出 完整 的 type_descriptor 结 构 的 图 示 。 
详细 描述 在 10.3.5 节 中 为 了 允许 变 体 有 多 个 标号 而 对 语法 、 数据 结构 和 动作 例 程 所 做 的 必要 修改 。 
， 包 有 两 个 需要 借助 符号 表 的 实现 来 特殊 处 理 的 性 质 : a) 在 包 中 声明 的 一 个 标识 符 子 集 是 导出 的 ; 


b) 包 的 作用 域 ， 也 许 包 含 了 某 些 隐藏 的 标识 符 ， 必 须 在 规范 部 分 和 包 主 体 的 编译 时 间 的 间隙 内 加 以 
保存 。 根 据 这 些 需求 ， 你 将 如 何 设计 符号 表 的 实现 来 适应 包 呢 ? 


， 在 10.3.7 节 提出 的 私有 类 型 的 实现 由 于 Ada/Cs 中 存在 的 包 不 可 以 网 套 的 事实 而 在 某 种 程度 上 得 以 简 


化 。 这 种 限制 允许 做 什么 样 的 简化 ? 描述 应 如 何 扩 展 已 有 的 技术 以 支持 包 的 媒 套 。 





第 11 章 处 理 表达 大 式 和 数据 结构 引用 


11.1 概述 


处 理 表达 式 和 数据 结构 引用 涉及 到 各 种 各 样 的 任务 ， 这 些 任务 有 一 个 主要 的 共同 点 : 它们 均 产 生 数 
据 对 象 。 本 章 就 从 定义 用 于 描述 这 些 数据 对 象 的 新 的 语义 记录 开始 。 这 个 记录 比较 复杂 ， 因 为 它 将 用 于 
描述 文字 常量 、 变 量 、 复 合 结构 的 成 员 以 及 表达 式 。 而 这 些 情况 之 所 以 可 以 用 一 种 记录 类 型 来 表示 ， 是 
因为 它们 在 许多 不 同 的 语法 上 下 文中 可 以 互 换 使 用 。 


enum object form { OBJECTVALUE, OBJECTADDRESS }; 


typedef struct data object ( 
type descriptor *object type; 
enum object form form; 
union ( 
/* form xx OBJECTVALUE */ 
struct value type value; 


/* form == OBJECTADDRESS */ 
struct address addr; 


): 
) data object; 


enum value | kind ( INTKIND, FLOATKIND 
STRINGKIND, COMPOSITEKIND ): 


struct value { 
enum value kind kind; 
union ( 
/* kind = INTKIND */ 
long int value; 


_/* kind == FLOATKIND */ 
-double float value: 


/* kind == STRINGKIND */ 
struct string *string value; 


/* kind =æ COMPOSITEKIND */ 
struct composite *composite value; 
}; 
} 


记录 struct value 中 的 最 后 两 个 变 体 使 用 了 尚未 定义 的 类 型 。 我 们 将 在 本 章 合适 的 小 节 内 讨论 这 
部 分 内 容 。 

我 们 选择 的 数据 对 象 的 表示 假设 我 们 想 让 编译 器 前 端 为 变量 分 配 地 址 。 因 此 ， 编 译 器 前 端 在 某 种 程 
度 上 是 与 机 器 相关 的 ， 它 依赖 于 有 关 人 信息， 如 应 该 为 任何 基本 数据 类 型 的 数据 项 预 留 多 少 空间 等 。 它 还 
依赖 于 实现 数组 和 过 程 等 语言 特性 的 运行 时 存储 模型 。 这 些 依赖 性 是 一 遍 编译 器 或 者 是 含有 人 简单 的 代码 ”1322 
生成 阶段 的 编译 器 所 特有 的 。 | | 

为 使 编译 器 更 具 可 移植 性 ， 可 以 在 前 端 和 代码 生成 器 之 间 采 用 更 加 抽象 的 接口 。 为 此 ， 可 以 使 用 符 
号 表 属 性 的 引用 作为 数据 对 象 的 表示 。 对 象 的 值 和 地 址 将 做 同样 的 处 理 ， 这 就 意味 着 文字 常量 将 和 标识 
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符 一 样 在 符号 表 中 表示 。 符 号 表 中 的 属性 记录 将 不 含 任何 偏 移 地 址 直到 在 代码 生成 器 中 的 地 址 分 配 阶段 
产生 它们 。 因 此 在 前 面 一 段 中 所 列 出 的 机 器 依赖 性 将 从 前 端 中 去 除 ， 但 整个 符号 表 还 必须 为 代码 生成 器 
所 用 。 E 


11.2 简单 名 字 、 表 达 式 和 数据 结构 的 动作 例 程 


11.2.1 处 理 简 单 标识 符 和 文字 常量 
作为 表达 式 操作 数 的 标识 符 在 语法 上 首次 出 现在 非 终结 符 <name> 的 产生 式 中 。 那 个 产生 式 的 右 部 
还 包括 了 非 终 结 符 <name suffix> 可 选 的 出 现 。 在 本 节 里 考虑 不 使 用 <name suffix> 的 情况 。 


<name> — «simple name» ( «name suffix» } 
«simple name» — «id» new name 


回忆 在 第 10 章 中 我 们 所 介绍 的 ， 非 终结 符 <id> 包 括 了 对 产生 ID 语义 记录 的 例 程 process_id() 的 调 
用 。 这 个 语义 记录 包含 了 标识 符 记号 的 串 的 表示 。new_name( ) 在 符号 表 中 搜索 该 标识 符 并 基于 它 的 属 
性 产生 DATAOBJECT 语 义 记录 : | 

new name(«id») => «simple name> 


Find <id>.id.id in the symbol table and acquire its 


attributes. (For now we will assume that it is 
a variable; other possibilities will be considered 
later.) 


if (there is an entry for <id> in the symbol table) 
«simple name» < a DATAOBJECT record with 
appropriate information extracted from 
the symbol table attributes. 


* esimple name» — an ERROR record 
) 
11.2.2 节 中 表达 式 的 产生 式 序 列 可 用 来 编码 运算 符 优先 级 和 结合 性 ， 它 开始 于 非 终 结 符 <primary> 
的 两 个 产生 式 。 其 中 一 个 产生 式 引 入 了 另外 一 个 非 终结 符 <literal>， 以 包括 在 表达 式 中 出 现 的 文字 常量 。 
名 字 常 量 可 通过 <name> 获 得 。 | 


«primary» 一 <name> fcheck data object 
«primary» 一 «literal» 


«literal» — INTLITERAL stprocess literal 
«literal» “一 FLOATLITERAL sfprocess literal 
«literal»  — STRINGLITERAL stprocess literal 


check data object() 是 必 不 可 少 的 ， 这 是 因为 〈 稍 后 在 本 章 讨 论 的 ) <name> 的 某 些 实例 可 以 
由 一 个 记录 而 不 是 一 个 DATAOBJECT 来 表示 : 
check data object (<name>) => <primary> 


if («name».record kind == DATAOBJECT) 
«primary» < <name> 
else { 
Generate an appropriate error message. 
<primary> < an ERROR record 
J 
) 


process _literal(){ifRprocess_id(), C 由 词法 分 析 器 返回 的 记号 值 并 创建 与 之 相应 的 
语义 记录 。 在 这 种 情况 下 ， 该 记录 是 一 个 DATAOBJECT 记 录 ， 其 form == OBJECTVRALUE 并 且 它 的 值 也 
被 适当 地 记录 下 来 。 在 变 体 object_value 中 使 用 的 记录 struct value type 包含 文字 常量 的 编译 时 
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表示 。 最 后 ， 还 必须 有 可 用 的 运行 时 表示 以 允许 这 些 常量 用 于 表达 式 或 其 他 上 下 文中 。 在 代码 生成 的 某 
个 时 刻 , 我 们 要 么 决定 把 文字 常量 用 作 指 令 中 的 立即 操作 数 ， 要么 在 常量 数据 区 中 为 它们 分 配 存 储 空间 。 
(我 们 可 以 用 文字 常量 的 值 来 初始 化 这 样 的 数据 区 并 静态 分 配 它 们 。) | 
到 这 种 运行 时 表示 的 转换 时 刻 越 迟 ， 编 译 器 前 端 也 就 越 独立 于 目标 机 器 。 此 外 ， 保 持 文字 值 的 源 语 
言 形 式 或 在 宿主 机 上 的 表示 可 用 ， 可 以 增加 优化 的 可 能 性 ， 例 如 在 编译 时 计算 常量 表达 式 。 利 用 面向 宿 
主机 的 文字 常量 表示 在 某 种 程度 上 是 一 种 折 中 的 办 法 。 例 如 ， 整 型 或 浮 点 型 文字 常量 到 宿主 机 表示 的 转 
换 就 假设 知道 目标 体系 结构 的 某 些 特性 ， 尤 其 是 所 允许 的 数值 范围 的 某 些 信息 。 正 如 在 讨论 
DATAOBJECT 语 义 记录 时 所 提 到 和 的， 最 抽象 的 方法 是 将 文字 常量 以 串 的 形式 存放 在 符号 表 中 并 将 它们 作 
为 符号 表 引 用 的 结果 传递 给 代码 生成 器 。 


11.2.2 处 理 表 达 式 


以 下 是 描述 Ada/CS 表 达 式 的 产生 式 集 合 ， 其 中 不 包括 能 够 定义 运算 符 非 终结 符 的 产生 式 : 


<expression> 
<expression> 
<expression> 
<relation> 


«simple expression» 


«term» 
«factor» 


«primary» 


— «relation» ( «logical op» «relation» ) 
— «relation» ( and then «relation» } 
— «relation» ( or else «relation» } 
— «simple expression» 
[ «relational op» «simple expression» ] 
-> [«unary adding op» ] «term» ( «adding op» «term» } 
— «factor» ( <multiplying op» «factor» } 
— «primary» [ ** «primary» ] | 
— not «primary» 
— abs «primary» 
— «literal» 
-3 «name» 
— ( «expression» ) 


上 述 若干 产生 式 有 着 相似 的 结构 只 是 成 员 有 所 不 同 。 这 些 结构 相似 的 产生 式 的 语义 处 理 也 相当 类 似 ， 
但 有 一 个 例外 。 包 含 and then 和 or else 的 <expression> 产 生 式 描述 了 将 在 第 12 章 里 讨论 的 短路 计算 
(short-circuit evaluation)。 除 去 这 些 产生 式 并 添加 语义 动作 符号 后 ， 我 们 得 到 如 图 11-1 所 示 的 表达 式 文 法 。 


«expression» — «relation» ( «logical op» «relation» #eval_binary } 
«relation» — «simple expression» 
[ «relational op» «simple expression» steval binary ] 


«simple expression» 一 «unary term» ( «adding op» «term» &eval binary } 
«unary term» — «unary adding op» «term» #eval_unary 

«unary term» 一 <term> 

<term> — <factor> { <multiplying op> <factor> #eval_binary } 
«factor» — «primary» [ ** #process_op «primary» steval binary ] 


— not process op «primary» #eval_unary 
— abs #process_op «primary» #eval_unary 


<primary> 一 <literal> 


— <name> #check_data_object 
— ( «expression» ) 


«logical op» 


«relational op» 


«adding op» 


«unary adding op» 
«multiplying op» 





图 11-1 含有 动作 符号 的 表达 式 文法 
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我 们 重 写 了 <simple expression> 的 产生 式 一 一 通过 引入 新 的 非 终结 符 <unary term> 来 简化 可 选 的 
一 元 运算 符 的 处 理 。 | 

这 些 产 生 式 仅 引 入 了 三 个 新 的 语义 例 程 : process _ op()、eval_unary( ) 和 eval binary(). 
process_op() 是 其 中 最 简单 的 ， 它 产生 的 语义 记录 包含 了 刚刚 由 词法 分 析 器 返回 的 运算 符 记 号 。 该 运 
算 符 记号 被 其 他 两 个 例 程 之 一 用 来 为 操作 数 的 记号 和 类 型 选择 合适 的 元 组 运算 符 。 记 号 条 目 所 需 的 新 的 
语义 记录 类 型 是 : 

struct token { token operator; }; 


H (th p AREIK TOKEN FIIDATAOBJECT IRE 26 HEA as SCA. BAA BEE 
DATAOBJECT 记 录 来 描述 由 操作 数 和 运算 符 语义 所 确定 的 表达 式 计算 结果 。 这 种 对 DATAOBJECT 记 录 的 
一 致 性 使 用 使 得 语义 例 程 可 以 处 理 任意 复杂 的 表达 式 。 动 作 例 程 eval_unary() 和 eval_binary() 的 描 
述 见 图 11-2 和 图 11-3。 符 号 <result> 将 根据 调用 eval unary() 和 eval_binary() 的 特定 产生 式 ， 表 示 


«expression», «relation». «simple expression>, <unary term> 或 者 <factor>。 


eval unary (<operator>, <operand>) => «result» 
{ . 
tuple operator tuple op; 
type descriptor *result type: 
struct address T; 


select unary operator («Operator».token, 
«operand».data object, 
& tuple op, & "result type): 
if (tuple op == NONE) 
«result» — an ERROR record 
else if (un no code needed(tuple op, & «operand»)) { 


un no code needed() checks whether the 
unary " expression can be evaluated at 
compile-time. If it can, it does so 
and updates <operand> to reflect 
the result. 
*/ 
<result> — <operand> 
) eise { 

T = get temporary(): 

generate(tuple op, <operand>.data_ object, T, ""); 

«result» — (data object) ( 

.form = OBJECTADDRESS; 


.object type = /* result pe */; 
.addr = T; ) 





图 11-2 动作 例 程 eval_unary() 


这 些 语义 例 程 调用 select binary operator(). get temporary(). bi no code needed(), 
un no code needed() 以 及 select unary operator(). 除了 选择 元 组 运算 符 外 ， 这 两 个 运算 符 选 
择 例 语言 
否 存在 着 此 类 操作 。 在 出 现 类 型 错误 时 ， 例 程 必 须 生 成 合适 的 错误 信息 。 如 果 其 中 任何 一 项 检查 失败 ， 
则 选择 例 程 应 当 返回 一 个 特殊 的 运算 符 以 标志 错误 情况 。( 此 时 上 述 代码 返回 运算 符 NONE 。) MRIS 
介 许 隐 式 类 型 转换 作为 表达 式 的 一 部 分 例如， 在 Pascal 中 将 一 个 整 型 数 和 一 个 实 型 数 相 加 )， 那 么 选择 
例 程 将 生成 元 组 来 实现 这 样 的 转换 。 

generate( ) 例 程 是 我 们 在 语义 例 程 描述 中 将 使 用 的 代码 生成 器 的 简化 的 接口 。 mun 
重 载 的 名 字 ， 表 示 多 种 由 其 参数 个 数 及 参数 类 型 所 区 分 的 代码 生成 例 程 ， 而 不 仅仅 代表 单个 的 例 程 。 
些 参数 中 的 第 一 个 总 是 元 组 运算 符 (如 7.3.3 节 中 所 定义 的 )。 其 他 的 参数 通常 是 一 些 串 、 ne 
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data_object 结 构 的 组 合 。 


eval _binary (<operand, >, «operators, «operand;») => «resuit» 
{ 

tuple operator tuple op; 

type descriptor *result type; 

struct address T; 


select binary operator («operand,».data object 
«operator» . token, 
«operand,» .data object, 
& tuple op, & result type): 


if (tuple op == NONE) 
«result» — an ERROR record 
else if (bi no code needed(& «operand,», 
ys tuple op, <operand,>)) { 
* bi no code needed() checks whether the binary 
* expression can be evaluated at compile-time. 
* If it can, it does so and updates <operand,> 
* to reflect the result. 
*/ 
«result» «- «operand, > 
) else { 
T = get ' temporary():; 
generate(tuple op, «operand,».data object, 
«operand,;».data object, T); 
«result» + (data object) { 
.form = OBJECTADDRESS; 
.Object type = /* result type */; 
.addr x T; ) 





图 11-3 动作 例 程 eval binary() © 


GMT te PARR HGR RRT Ct AR NETER ARI. 大 多 数 程序 设 
计 语 诗 为 符号 + 和 * 定 义 了 多 种 含义 ， 这 些 符 号 被 称 为 可 重 载 的 《overloaded)。 通 过 分 析 相 应 操作 数 的 类 
型 可 以 确定 这 些 符号 每 次 出 现时 的 确切 含义 〈 例 如 ， 确 定 + 代 表 整 数 加 法 还 是 浮 点 数 加 法 )。Ada 和 C++ 
人 允许 用 户 使 用 自 定义 的 函数 来 重 载 标准 的 运算 符 ， 即 : 表达 式 的 上 下 文 可 能 需要 用 来 选择 运算 符 的 合适 
的 含义 。 在 后 面 的 章节 中 ， 我 们 将 考虑 处 理 此 问题 的 算法 。 

fijfüun no códe needed| )fübi no code _needed( ) 以 及 它们 在 if 语句 分 支 上 的 调用 不 是 严格 
必 震 的。 我 们 可 以 用 它们 实现 某 种 简单 的 、 与 机 器 无 关 的 优化 ， 如 在 操作 数 均 为 常量 时 进行 编译 时 计算 
或 者 针对 一 元 加 法 操作 不 生成 代码 。 因 此 ， 根 据 需要 ， 这 些 例 程 可 以 很 简单 也 可 以 很 复杂 ， 这 取决 于 此 
时 在 源 语言 级 还 是 稍 后 在 中 间 表 示 上 进行 某 种 优化 。 
临时 变量 管理 

例 程 get temporary () 在 例 程 eval_ binary() 和 eval unary O 中 的 调用 表明 ， 表达 式 的 语义 例 
程 将 涉及 临时 变量 分 配 例 程 。 临时 变量 管理 的 细节 将 在 涉及 代码 生成 的 第 15 章 里 讨论 。 在 大 多 数 情况 下 ， 
寄存 器 将 用 作 临 时 变量 ， 而 寄存 器 管理 是 代码 生成 中 必 不 可 少 的 部 分 。 

例 程 get temporary ( ) 为 操作 结果 提供 名 字 或 存放 位 置 。 在 这 一 级 抽象 中 ， 临时 变量 基本 上 被 认 
为 是 可 以 无 限制 提供 的 虚拟 寄存 器 。 代码 生成 器 将 临时 变量 映射 到 真实 的 寄存 器 或 内 存 位 置 。 
get temporary(), ， 如 其 在 eval_unary() 和 eval_binary() 中 的 调用 所 表明 的 ， 将 在 每 次 被 调用 时 
返回 一 个 struct address. RIBAM struct address 中 选择 var offset 和 var_level 域 的 值 的 
其 种 编码 来 区 别 临 时 变量 和 一 般 变 量 。 例 如 ， 人 允许 var_level 为 负 值 来 表示 临时 变量 ,而 此 时 
var_offset 域 将 用 来 保存 惟一 的 临时 变量 编号 。 另外 一 种 描述 则 是 为 临时 变量 采用 不 同 的 变 体 ， 但 稍 
后 我 们 会 看 到 ， 同 其 他 地 址 一 样 ， 也 需要 将 indirect 标 志 应 用 于 临时 变量 上 。 
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请 求 临 时 变量 实质 上 就 是 匿名 声明 。 正 如 所 预计 的 那样 ， 我 们 必须 要 提供 描述 临时 变量 使 用 情况 的 
信息 。 至 少 需要 提供 临时 变量 的 大 小 。 由 于 许多 机 器 提供 了 不 同 的 寄存 器 类 ， 因 此 机 器 级 的 类 型 信息 
(整数 、 浮 点 数 和 地 址 ) 可 用 来 简化 和 改善 了 寄存 器 的 分 配 。 EE 

通常 ， 优 先 选择 或 者 某 种 提示 (诸如 分 配 一 个 寄存 器 或 存储 位 置 ) 允许 在 临时 变量 指派 过 程 中 使 用 
语义 例 程 来 辅助 代码 生成 器 。 寄 存 器 优先 《register preference) 表明 临时 变量 在 其 分 配 后 可 能 经 各 或 不 
久 即 被 引用 ， 为 此 将 它 指派 到 寄存 器 是 有 益 的 。 类 似 地 ， 存 储 器 优先 (storage preference) 则 表明 将 临 
时 变量 分 配 到 主 存 中 是 必须 的 (例如 ， 需 要 创建 指向 临时 变量 的 指针 )。 那 些 语义 例 程 可 直接 使 用 的 信 
息 常常 会 在 临时 变量 指派 阶段 被 丢弃 ， 因 此 ，、 这 些 优先 规则 无 疑 有 助 于 产生 高 效 的 目标 代码 。 

一 日 分 配 后 ， 临 时 变量 就 必须 保留 到 它 的 值 不 再 需要 时 为 止 。 非 活跃 变量 (dead variable) (和 非 活 
跃 临 时 变量 ) 是 那些 它们 的 值 不 再 需要 的 变量 ; 我 们 可 以 仔细 分 析 程序 流 来 发 现 它们 。 然 而 ， 很 少 有 非 
优化 编译 器 去 执行 这 些 必 要 的 流 分 析 ， 因 此 ， 它 们 都 做 好 了 最 坏 情况 下 的 假设 。 对 变量 而 言 ， 仅 当 它 们 
的 声明 作用 域 退 出 时 ， 其 存储 空间 才 被 释放 。 而 对 于 临时 变量 ， 由 于 没有 显 式 的 作用 域 规则 可 供 使 用 ， 
临时 变量 管理 器 要 么 必须 假设 临时 变量 一 旦 被 引用 就 不 再 需要 ， 要 么 必须 依靠 来 自 知道 如 何 使 用 临时 变 
最 的 语义 例 程 的 更 为 准确 的 建议 。 这 种 建议 通常 是 例 程 Eree_temporary( ) 的 调用 ， 该 例 程 将 指出 那些 
不 再 需要 的 特定 的 临时 变量 。 调 用 free_temporary( ) 并 不 是 绝对 必要 的 ， 但 没有 它们 则 可 能 产生 不 必 
要 的 代码 (去 保存 被 认为 是 仍然 活跃 的 临时 变量 )。 

如 果 分 配 临时 变量 的 语义 例 程 不 需要 将 它 传递 给 另 一 个 的 语义 例 程 , 那么 临时 变量 的 释放 将 很 容易 。 
然而 ， 临 时 变量 却 经 常 必须 在 一 个 例 程 中 分 配 而 在 另 一 个 例 程 中 释放 。 例 如 ， 在 计算 较 大 的 表达 式 时 ， 
常常 使 用 临时 变量 来 保存 子 表达 式 的 值 。 一 旦 语义 例 程 使 用 了 子 表达 式 的 值 ， 保 存 该 值 的 临时 变量 也 就 
可 以 被 释放 。 使 用 该 值 的 语义 例 程 必须 显 式 地 执行 释放 操作 。 某 些 临时 变量 的 生存 期 较 长 ， 这 就 需要 不 
同 的 技术 。 例 如 ， 在 for loop 中 的 循环 变量 由 于 经 常 被 访问 ， 因 此 按照 寄存 器 优先 原则 将 它 指 派 到 某 个 
临时 变量 中 。 该 临时 变量 的 名 字 可 以 存放 在 与 循环 首部 对 应 的 语义 记录 中 以 便 在 循环 结束 时 调用 的 语义 
例 程 能 够 释放 该 临时 变量 。 | 

临时 变量 可 以 保存 一 个 计算 的 地 址 而 非 一 个 值 。 例 如 ， 在 编译 下 标 化 变量 A(D) 的 引用 时 ， 必 须 分 配 
一 个 临时 变量 来 计算 并 存放 A(1) 的 地 址 (该 临时 变量 类 型 为 struct address, MRAE 
get temporary( ) 的 接口 允许 这 么 做 的 话 )。 该 临时 变量 的 struct address 记 录用 来 表示 A(l)， 但 该 
数组 元 素 并 没有 存放 在 这 个 临时 变量 里 ， 所 存放 的 是 它 的 地 址 。 因 此 表示 该 临时 变量 的 struct 
address 记 录 中 的 indirect 域 必须 设置 为 PROB 。A() 的 地 址 可 被 代码 生成 器 和 临时 变量 管理 器 识别 并 
确实 被 当 作 临 时 变量 对 待 。 然 而 ， 通 过 这 个 地 址 间接 访问 而 得 到 的 A(D) 的 值 却 不 是 临时 变量 ， 且 必须 巴 
以 保留 ， 除 非 有 显 式 的 赋值 改变 它 。 这 样 ， 我 们 就 识别 出 两 种 不 同 的 临时 变量 的 用 法 ， 这 对 应 着 程序 设 
计 语 言 中 名 字 的 两 种 使 用 ( 右 值 (r-value) AZ 4& (I-value)): 一 个 对 象 可 以 存放 在 临时 变量 中 ,或 它 
的 地 址 可 以 保存 到 一 个 临时 变量 中 。 认 识 这 种 区 别 很 重要 。 


11.2.3 简单 的 记录 和 数组 引用 


这 一 节 将 讨论 简单 的 记录 和 数组 引用 的 翻译 。 首 先 考虑 的 是 记录 域 大 小 固定 的 记录 。 随 后 将 研究 带 
有 常量 边界 的 一 维 数组 。 最 后 将 讨论 那些 更 加 复杂 的 数据 结构 ， 如 包含 动态 大 小 的 域 的 记录 、 多 维 数组 
以 及 非常 量 边界 的 数组 。 、 
记录 域 引用 | 

在 第 10 章 里 ， 记 录 定 义 中 的 语义 例 程 连续 分 配 所 有 记录 域 的 地 址 。 地 址 的 连续 性 简化 了 记录 赋值 和 
咸 引 用 。 每 个 记录 域 在 声明 时 即 被 赋予 相对 于 记录 开始 位 置 的 偏 移 。 通 常 ， 该 偏 移 是 一 个 常量 (在 
AdajCcSs 中 该 偏 移 始终 为 常量 )。 域 的 偏 移 (如 果 可 能 的 话 ， 在 编译 时 ) 加 上 记录 的 开始 地 址 即 可 得 到 记 
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孙 域 的 地 址 。 我 们 必须 记 住 的 是 ， 机 器 上 经 常 有 对 齐 限制 (alignment constraint)。 这 意味 着 某 些 类 型 的 
记录 域 必须 开始 于 某 种 偶 地 址 边界 ， 例 如 ， 双 精度 浮 点 数 可 能 必须 对 齐 到 8 字 节 的 地 址 边界 。 
考虑 下 面 的 声明 : 
A: record 
B : Integer; 


C : Float; 
end record: 


当 处 理 域 引 用 ， 如 A.C 时 ， | 
(1) 首先 在 符号 表 查 找 A。 可 得 到 它 的 地 址 (如 ，[Level = LL, Offset = Loc]) 和 类 型 (必须 是 记录 )。 
(2) 随后 在 该 记录 的 类 型 描述 符 所 包含 的 符号 表 中 查找 C。C 的 属性 之 一 是 它 相 对 记录 开始 位 置 的 偏 
移 。 这 里 ， 偏 移 值 为 2 (假设 整数 大 小 为 2 个 字 节 )。 
(3) 在 编译 时 得 到 A.C 的 位 置 ， 即 A.C = (LL, Loc+2)。 
下 面 的 语法 定义 了 域 的 引用 和 用 于 翻译 它们 的 动作 符号 : 


<name> -> «simple name» [ «name suffix» ) 
«simple name» — «id» new name 
«name suffix — . «selected suffix» sifield name 


«selected suffix» — — «id» 


在 处 理 A.C 时 ， 将 调用 new_name( ) 处理 A 并 产生 一 个 DATAOBJECT 记 录 来 描述 它 。 例 程 
field_name( ) 将 被 调用 来 处 理 C。 该 例 程 试图 将 先前 构造 的 DATAOBJECT 记 录 解 释 为 记录 对 象 的 描述 符 ， 
并 在 这 个 包含 记录 所 定义 的 符号 表 中 查找 C。 最 后 ， 该 例 程 产生 新 的 描述 该 记录 域 的 DATAOBJECT 记 录 : 

field_name(<name>, <selected suffix>) => <name> 

struct id suff id; | 


if («name».data object.object type.form != RECORDTYPE) i 
«name» — an ERROR record 
return; 


) 


suff id = «selected suffix» . id. id from the symbol table 
referenced by «name».data object.object type.fields 
if (suff id is not present in that symbol table) ( 
«name» — an ERROR record 
return; l 
} - - ， 
Get the attributes record for suff_id from the 
record’s symbol table. Add the field offset 
value from the attributes to the address 
described in <name>.data object. This can 
be done at compile-time unless the address is 
indirect, in which case a tuple to do so must be 
generated. Adjust the address in data_object to 
describe the result. 
Set «name».data object.object type to id type 
from the field name's attributes 


«name» « the updated DATAOBJECT record 
) 


引用 有 固定 边界 的 数组 中 的 元 素 

一 维 数组 连续 分 配 其 元 素 。 ws 数组 边界 由 文字 常量 指定 时 ， 数组 所 需 的 空间 可 在 编译 时 在 活动 记录 
或 静态 数据 区 中 分 配 。 考 虑 数组 : 

A : array(1..10) of Integer; 
在 遇 到 A(l) 的 引用 时 ， 我 们 计算 数组 第 !I 个 元 素 相对 于 数组 开始 地 址 的 偏 移 。 此 例 中 ， 该 偏 移 为 IT- 1 而 通 
常 此 偏 移 为 (index-lower bound)*element size. (C 语 言 中 的 数组 情况 较为 简单 ; 数组 下 界 总 是 零 。 
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因此 ， 偏 移 就 是 index*element_size.) 

然后 将 第 ! 个 元 素 的 偏 移 加 上 数组 的 开始 地 址 即 可 形成 所 期 望 的 地 址 。 如 果 数 组 下 标 不 是 常量 ， 则 
数组 元 素 的 地 址 被 存放 在 临时 变量 中 ， 如 果 有 可 能 ， 也 可 存放 在 寄存 器 中 。 可 以 通过 将 DATAOBJECT 记 
东 中 的 标志 indirect 设 置 为 真 来 标记 此 临时 变量 中 存放 的 是 地 址 。 在 一 遍 编 译 器 中 由 于 临时 变量 驻 留 
在 寄存 器 中 ， 因 而 有 可 能 做 一 些 简单 的 优化 。 如 果 寄 存 器 含有 用 于 间接 访问 的 地 址 ， 则 通过 将 该 寄存 器 
用 作 变 址 或 基 址 寄存 器 并 且 伴 随 的 偏 移 值 为 0， 就 可 以 形成 等 价 的 直接 地 址 。 这 种 变换 利用 了 在 大 多 数 
计算 机 上 可 用 的 变 址 寻 址 模式 (indexed addressing mode) 以 产生 高 效 的 数组 元 素 访问 代码 。 

回 到 A() 的 例子 。 我 们 首先 分 配 临时 变量 T 并 将 ! 值 装 入 。 然 后 减 去 下 界 1。 如 果 数 组 的 元 素 大 小 大 
于 1， 则 必须 将 T 值 乘 上 元 素 的 大 小 。 若 局 用 下 标 检查 ， 则 我 们 还 要 检查 | 是 否 为 合法 的 下 标 值 。 接 着 ，T 
要 加 上 A 的 开始 地 址 。 最 后 ， 产 生 描 述 A(1) 的 DATAOBJECT 记 录 。 其 中 ，object _type 域 是 数组 元 素 的 
类 型 ， 其 地 址 为 T， 标 志 indirect 为 真 。 | 

由 于 下 标 化 变量 被 广泛 使 用 ， 因 此 ， 高 效 地 产生 数组 引用 代码 就 显得 愈 发 重要 了 。 如 前 所 述 ， 要 形 
成 A(1) 的 地 址 ， 我 们 必须 先 装 入 下 标的 值 ， 再 减 去 下 界 值 ， 然 后 再 将 此 偏 移 放 大 元 素 大 小 的 倍数 ， 最 后 
再 加 上 开始 地 址 。 对 固定 大 小 的 数组 而 言 ， 其 下 界 一 定 是 常量 ;为 了 剔 除 上 述 的 减法 步骤 ， 我 们 可 以 计 
算数 组 的 虚拟 起 始 地 址 (virtual origin)， 即 start_address- lower. bound x element_size。 这 也 就 是 
A(0) 的 地 址 ， 尽 管 0 是 非法 的 下 标 。 利 用 虚拟 起 始 地 址 可 以 避免 显 式 地 减 去 下 界 的 操作 。 这 样 ， 我 们 仅 
需 装 和 下 标 值 ， 然 后 加 上 该 虚拟 起 始 地址 而 非 实 际 数组 地 址 即 可 。 

下 列 产生 式 说 明 一 维 数组 如 何 被 包含 于 <name> 的 语法 中 : 


<name> — «simple name» ( «name suffix» } 
«name suffix» — — ( «expression» ) ffprocess index 


例 程 process_index() 同 field_name() 非 常 相似， 它 将 新 的 名 字 后 组 即 下 标 表 达 式 应 用 于 先前 处 理 
过 的 名 字 前 绥 。 不 管 此 名 字 前 缀 多 么 复杂 ， 它 都 由 单个 的 DATRAOBJECT 记 录 来 描述 。 例 程 
process index( ) 的 描述 见 图 11-4。 


process index(«name», «expression») z» «name» 
( 
if («name».data object.object type.form != ARRAYTYPE) { 
«name» « an ERROR record 
| | return; 


) 2 
if («expression».data object.object type does not match 
the index type of the array) 1 
<name> — an ERROR record 
return; 


} 
Allocate a temporary, T. This temporary should be a 


register if possible. 
Let Index denote the value described by 
«expression».data object 


If subscript checking is enabled, generate code to check 
that L «- Index «- U where: 
L == «name».data object.object type.bounds.lower and 
U == «name».data object.object type.bounds.upper 


Let E type = <name>.data , object.object type.element type 
Let E size - E type. size 
Generate code to load T with Index x E size 


: pet A level = «name».data object.addr.var level 
Let A offset = «name».data object.addr.var offset 


Generate code to add the contents of the A level 
register to T. 
Generate code to add A offset - E size x L 





图 11-4 动作 例 程 process index() > 
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(a constant value) to T. 


«name» + (data object) ( 
.Object form = OBJECTADDRESS; 
.Object type = E type: 

„addr = (struct address) ( 


.var level = T.var level; 
.var offset = T.var offset; 
.indirect = TRUE; 

.read only = FALSE; ) ; }; 





图 11-4 (£X) 


处 理 同时 包含 数组 和 记录 引用 的 复杂 名 字 不 需要 额外 的 动作 例 程 。 例 如 给 定 A(3).BB， 首 先 处 理 数 
组 引用 并 产生 描述 A(3) 的 DATAOBJECT 记 录 。 随 后 例 程 field_name( ) 将 DATROBJECT 记 录 作 为 一 个 记录 
类 型 描述 符 并 以 此 来 解释 BB 的 ID 记 录 。BB 的 偏 移 加 上 A(3) 的 地 址 ， 即 形成 A(3).BB 的 地 址 。 

对 于 像 Pascal 这 样 的 语言 来 说 ， 其 多 维 数组 可 以 看 作 数 组 的 数组 ， 因 此 一 个 像 A(l, J) 这 样 的 名 字 可 以 
利用 本 节 的 技术 将 其 处 理 为 A(1)(J)。11.3 节 描述 了 更 为 复杂 的 多 维 数组 的 处 理 方 法 。 


11.2.4 记录 和 数组 示例 


图 11-5a 给 出 一 些 Ada/CS 的 记录 和 数组 的 声明 示例 ， 其 中 在 变量 和 域名 的 右边 给 出 了 由 编译 器 赋予 
的 偏 移 。 图 11-5b 则 显示 了 翻译 使 用 那些 变量 的 语句 而 生成 的 元 组 。 | 

































Declaration? 






j integer: 
type R is 
record 
X, | 0 
Y: integer 2 
end; 
ARecord: R; 
A1: array (1..10) of R; 
A2: array (4..6) of array (8..12) of Integer; 


a) 记录 和 数组 声明 


& os 


A1() := ARecord; 
(SUBI, Addr(AT), 4, t1) —— 4 = lower(Al)*element_size(A1) 
(RANGETEST, 1, 10, 1) 
(MULTI, I, 4, t2) —-- element size is 4 
(ADDI, t1, t2, t3) —— t3 contains address of A1(D 


(ASSIGN, ARecord, 4, @t3) —— @ indicates indirection 






ARecord.Y 
(ASSIGN L 3 @(Addr(ARecord)+2)) —— offset of Y = 2 


A20, := A1Q).Y; 


(SUBI, Addr{A2), 40, t4) —— 40 = lower(A2)*element size(A2) 
(RANGETEST, 4, 6, 1) 
(MULT. L 10, t5) —— element size is 10 
(ADDI, t4, t5, t6) —- té contains address of A2(1) 
(SUBI, t6, 16, t7) —— subtract 8*2 
(RANGETEST, 8, 12, J) —— no multiplication since 

—— element size is 1 
(ADDI, t7, J, t8) —- t8 contains address of A2(LJ) 
(SUBI, Addr(AD, 4, t9) -~ 4 = lower(Al)*element, size(A1) 
(RANGETEST, 1, 10, 1) s i 
(MULTI, I, 4, t10) —— element size is 4 
(ADDI, t9, t10, t11) —— t11 contains address of AT(D 
(ADDI, t11, 2, t12) —— add offset of Y; 

.. —— t12 has address of A1(D.Y 


(ASSIGN, @t12, 2, @t8) 
b) 记录 和 数组 语句 及 其 相应 的 元 组 


图 11-5 
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在 很 多 语言 (如 Pascal 和 Ada) 中 ， 串 的 大 小 是 国定 的 ， 因 此 它们 可 以 被 简单 地 实现 为 字符 数组 。 
这 种 实现 方式 既 罕 易 又 有 效 ， 但 它 不 支持 一 些 最 有 用 的 串 操 作 。 动 态 创建 新 串 的 操作 ， 例 如 ， 从 给 定 的 
串 中 提取 子 串 或 者 连接 两 个 或 多 个 串 ， 均 产生 新 的 串 对 象 而 其 大 小 通常 仅 在 运行 时 才能 确定 。 

为 了 支持 这 些 更 通用 的 串 操作 ，Ada/CS 包 含 了 动态 串 。 在 10.2.2 节 中 曾 讨论 过 ，Sitring 是 Ada/CS 中 
的 预定 义 类 型 。 在 9.3.3 节 中 给 出 的 基于 堆 的 动态 对 象 管理 模式 适合 于 实现 Ada/CS 的 串 。 利 用 这 种 方法 ， 
每 个 串 变量 或 常量 将 表示 为 一 个 指向 动态 创建 的 串 对象 的 指针 。 因 此 常量 STRING-SI2E 的 值 ， 即 描述 在 
活动 记录 中 表示 一 个 串 所 需 空间 大 小 的 值 为 4， 这 也 就 是 说 允许 使 用 4 个 字 节 来 存放 串 指针 。 

如 果 定 义 了 适当 的 元 组 运算 符 ， 则 可 以 将 串 上 的 操作 翻 译 成 元 组 。 不 像 算术 运算 的 元 组 运算 符 ， 我 
们 不 期 望 代码 生成 器 将 串 操作 元 组 翻译 成 1 ~ 2 条 机 器 指令 。 典 型 地 ， 我 们 将 调用 库 例 程 来 执行 串 操作 ， 
特别 是 像 子 串 或 串 连 接 那样 创建 新 串 的 操作 。 而 在 某 些 机 器 的 指令 集中 确实 包含 着 可 用 来 实现 串 操作 的 
PRIES. 

Ada/Ccs 中 定义 的 捉 操 作 包 括 所 有 基于 通常 比较 运算 符 的 串 的 词典 序 比较 操作 、 由 运算 符 & 表 示 的 串 
连接 操作 和 一 个 预定 义 的 子 串 函数 一 一 Substr(StringObject，StartPos, Length)。 此 外 ， 串 赋值 还 必须 
加 以 特别 地 实现 ， 因 为 此 时 要 拷贝 的 是 串 本 身 而 非 表 示 串 的 指针 。 需 用 米 表 示 上 述 特性 的 元 组 运算 符 是 

SEQ, SNE, SGT, SGE, SLT, SLE, CATENATE, SUBSTR, SCOPY 


除了 子 串 和 串 拷贝 运算 符 外 , 其 他 运算 符 均 使 用 三 个 操作 数 的 标准 元 组 形式 。SUBSTR 使 用 四 个 操作 数 ， 
前 三 个 作为 函数 的 输入 参数 ， 第 四 个 是 存放 结果 的 串 变量 或 临时 变量 。 对 SCOPY 而 言 ，ARG1 是 拷贝 
的 源 操作 数 ， 而 ARG2 是 目的 操作 数 。 

图 11-6 举 例 说 明了 串 操 作 的 翻译 ， 其 中 S1、S2 和 S3 均 为 囊 。 


if S1 = S2 then (SEQ, S1, S2, t1) 
S2 := $3; (JUMPO, t1, L1) 
else (SCOPY, S3, S2) 
S1 := S2 & Substr(S3,4,3); (JUMP, L2) 
end if; (LABEL, L1) 
(SUBSTR, S3, 4, 3, t2) 
(CATENATE, S2, t2, t3) 
(ASSIGN, t3, S1) 


—— SCOPY not necessary because. - 
—- source is a temporary ' 
(LABEL, L2) 





图 11-6 由 串 运 算 符 生成 的 元 组 示例 


11.3 高 级 特性 的 动作 例 程 


11.3.1 多 维 数组 的 组 织 和 引用 


在 描述 数组 引用 的 语义 例 程 之 前 ， 必 须 考虑 如 何 组 织 数组 的 存储 。 根 据 它 们 的 存储 分 配 需求 ， 存 在 
着 三 种 形式 的 数组 : 

(1) 如 果 数 组 所 有 的 边界 均 为 常量 ， 那 么 它 可 以 分 配 在 静态 存储 、 栈 或 者 堆 中 。 这 里 不 需要 运行 时 
的 描述 符 ， 但 如 果 人 允许 更 一 般 的 数组 形式 ， 那 么 就 可 能 要 采用 运行 时 描述 符 以 求 得 使 用 上 的 一 致 性 。 

(2) 如 果 在 作用 域 入口 计算 数组 边界 ， 则 可 以 使 用 栈 或 堆 存 储 。 这 时 还 需要 相关 的 描述 符 。 

(3) 如 果 数 组 边界 较 灵活 ( 即 ， 随 时 可 变 )， 则 必须 使 用 堆 存 储 并 且 需 要 内 情 向 量 或 某 种 描述 符 。 
这 样 的 数组 可 当 作 串 来 处 理 。 
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不 同 的 数组 组 织 区 别 在 于 如 何 引 用 单个 的 数组 元 素 : 

。 连续 存储 (Contiguous) 

所 有 的 数组 元 素 采 用 连续 的 存储 分 配 。 最 常见 的 编排 方式 有 : 

(1) 行 主 序 (Row Major) 

这 种 次 序 对 应 着 最 右 的 下 标 变化 最 快 ， 即 [A(1,1),A(1,2)，…，A(2,1),A(2，2)，…]。 大 多 数 现代 程序 
设计 语言 (如 PL/I、Algol、Pascal、C 和 Ada 等 ) 均 采 用 这 种 次 序 。 

(2) 列 主 序 (Column Major) 

这 种 次 序 对 应 着 最 左 的 下 标 变 化 最 快 ， 即 [A(1,1), A(2,1), =, A(1,2), A(2,2),…]。FORTRAN 语 言 
采用 这 种 次 序 。 

。 向 量化 存储 (By vectors) 

向 量 的 所 有 的 元 素 均 相连 。 数 组 可 看 作 是 由 指向 子 数组 或 向 量 的 指针 组 成 的 问 量 。 

在 以 下 章节 里 ， 我 们 将 考虑 在 使 用 不 同 组 织 形 式 时 ， 如 何 寻 址 单个 的 数组 元 素 。 
行 主 序 

行 主 序 有 着 吸引 人 的 特性 ， 即 我 们 可 以 将 形 如 array(1..N，1..M) of T 的 数组 看 成 是 array(1..N) of 
array(1..M) of T， 而 其 中 子 数组 也 是 采用 行 主 序 进行 元 素 的 连续 分 配 。 

假设 有 以 下 声明 : 

A : array(L,..U,, ..., tn.Un) of T; 

定义 数组 第 j 维 元 素 的 个 数 为 : 

Dj= Ut * 1 | 

相对 于 数组 第 一 个 元 素 A(L,,， … ,Ln)， 数 组 元 素 A(ii,… , in) 的 位 置 为 : 

(is Lo) Hina Lo Doc 2) Ds Dnit +h-L)Do Da 


这 个 计算 式 可 以 重 写 为 : 
i Do :+ ++ Dn+izDa + ** Dnt+ br Dn+in - 
(L, D2 + +* Dn+t2D3a < ths Datta) 


上 述 计算 公式 的 第 二 项 独立 于 值 i (数组 的 下 标 )。 我 们 称 之 为 con_part ， 因 为 它 可 以 在 数组 的 范 
Hl (LL U 和 D 值 ) 建立 时 提前 计算 。 

上 述 计 算 公 式 可 被 再 次 重 写 为 : 

(((i1 Datiz) Datia)Datis * * )Dn+tin - con. part = var part ~ con part 

于 是 ， 数 组 元 素 的 地 址 可 以 表示 为 : 

((var_part — con part) x element_size) + array_start_adr 

现在 我 们 叙述 在 分 析 和 处 理 下 标 列表 时 ， 语 义 例 程 将 如 何 计算 数组 元 素 的 地 址 。 假设 处 理 的 是 数组 
IRA, e in)。 此 时 var_part 存 放 在 临时 变量 中 一 一 很 大 可 能 是 在 寄存 器 中 。 下 面 是 在 处 理 每 个 下 标 
以 及 右 插 号 时 产生 的 代码 : 


(1) Calculate i; var part- i, 
(2) Calculate ip; var_part = var part x Dati 


(n) Calculate in; var. part = var part x Di 
(n+1) element adr = array : start adr « (var " part - con part) x element : size 


通 党 数组 元 素 的 大 小 为 1 时 ， 就 不 需要 在 第 (n+1) 个 计算 步 做 乘法 操作 。 同样 ， 如 果 数 组 的 边界 是 常 
量 的 话 ， 则 表达 式 : 
array start adr — con part x element size 


可 以 在 编译 时 计算 从 而 省 去 了 最 后 一 步 中 的 减法 操作 。 
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现在 我 们 描述 用 来 翻译 数组 引用 的 语义 例 程 。 在 语法 上 ， 数组 引用 开始 于 以 下 产生 式 


<name> 一 <simple name> { <name suffix» } 


而 <name suffix> 可 能 的 形式 有 : 


«name suffix> — ( «expression» ( , «expression» } ) 


我 们 知道 ， 在 <simple name> 中 调用 的 例 程 new_name() (以 及 在 其 他 任何 版 本 的 <name suffix> 中 所 做 


的 语义 处 理 ) 将 一 个 DATAOBJECT 记 录 和 <name> 联 系 在 一 起 。 处 理 数组 引用 和 需 用 到 下 面 这 三 个 例 程 ， 
start index(). index(). finish index()。 它 们 出 现在 下 面 <name suffix> 的 产生 式 中 : 


<name suffix» — ( «expression» #start_index ( , «expression» #index } ) 
sffinish. index 


动作 例 程 start_index() 和 index() 将 使 用 一 个 新 的 与 非 终结 符 <name suffix> 关 联 的 语义 记录 : 


struct index { 
/* How many subscripts have been processed */ 
unsigned int count; 


/* Address of var_part of indexed array */ 
| address range var part adr; 
}; 
例 程 start_index( ) 开 始 为 下 标 表 达 式 列表 计算 var_Part 并 创建 描述 下 标 计算 情况 的 INDEX 语 义 
ix: 


start index(«name», <expression>) => «name suffix» 
{ 
Check that the DATAOBJECT record for <name> 
describes an array 
Check that <expression>.data_object .object type 
agrees with the type required by array’ s first 
subscript position 
Allocate a temporary, T, for var part (a register, 
if possible) , 
Generate code for T := <expression> 
If subscript checking is enabled, generate code to 
check that L; < «expression» < U, 
(L, and U, are obtained from the array's dope vector) 


«name suffix» «— (struct index) 1 
.count = 1; 
.var part adr = T; ) 
) 


动作 例 程 index( ) 使 用 数组 的 DATAOBJECT 记 录 以 及 由 start_index( ) 创建 的 INDEX 记 录 和 下 一 维 
下 标 表 达 式 的 DATAOBJECT 记 录 继 续 进 行 下 标 计 算 : 


index(«name», «name suffix», <expression>) => «name suffix 
{ 
«name suffix». index.count += 1; 
/* let Cnt represent this value xf 
Check that Cnt does not exceed the number of 
subscripts possessed by the array 
described by <name>.data_object 
‘Check that «expression».data object.object type 
agrees with the type required by the subscript 
at position Cnt 
Let Vp be the address stored at 
«name suffix» .index.var part adr 
Let Den represent the D value at position Cnt 
of the array's dope vector. 
Generate code for 
vp t= Dm; | 
Vp += «expression»; 
If subscript checking is enabled, generate code to 
check that Lom < «expression» < Ucn 








(Lom and Ucn are obtained from the array’ 8 
dope vector.) | 
«name suffix» — the updated INDEX record 
) 


例 程 finish_ index( ) 完 成 下 标 计算 并 将 一 个 DATAOBJECT 记 录 和 <name> 相 关联 以 描述 特定 的 数组 元 素 : 
finish_index (<name>, <name suffix>) => <name> 


Check that <name Suffix>.index.count equals the dimension 
of the array described by <name>.data_object 
Let Vp be the address stored at 
<name suffix>.index.var_part_adr 
Obtain con_part from the array’s dope vector 
element size is a constant known at compile-time 
Generate code for 
Vp -= con part; 
Vp *= element size; 
Vp += «name».data object . addr; 
«name» + a data object whose type is 
«name».data object.object type.element type 
and whose address is that of the temporary, Vp, 
with indirect set to TRUE (since the temporary 
contains the address of the element referenced) 
} 397 


当 数组 所 有 的 边界 均 是 编译 时 可 计算 的 常量 时 ， 可 以 从 符号 表 中 获得 所 有 的 内 情 向 量 。 此 外 ， 如 有 果 
数组 所 有 的 下 标 均 为 常量 ， 如 A(1,2,3)， 那 么 作为 一 种 优化 措施 ， 可 以 折 双 所 有 下 标的 计算 而 不 生成 任 
何 代码 。 举 例 来 说 ， 考 虑 如 下 的 声明 : 

A: array (1..10, 1..10, 1..20) of integer; 
数组 A 所 有 的 边界 均 为 常量 ， 因 此 con_part 可 由 编译 器 计算 得 到 : 

con part == 2 * 10 * 20 + 2 * 20 + 2 == 442 

诸如 A (1, J, K ) 形 式 的 数组 元 素 引 用 的 翻译 见 图 11-7。 


(RANGETEST, 1, 10, I) 
(ASSIGN, 1, 2, t1) 
(RANGETEST, 1, 10, J) 
(MULTI, t1, 10, 12) 
(ADDI, t2, J, 13) —— 
(RANGETEST, 1, 20, K). 


(MULTI, t3, 20, t4): 

(ADDI, t4, K, t5) 

(ADDI, t5, 442, t6) —-- addition of con part 

(MULTI, t6, 2, t7) —— multiplication by element size 

(ADDI, t7, Addr(A), t8) —— t8 now contains the address of A(1,J,K) 





图 11-7 为 多 维 数组 引用 产生 的 元 组 


Pascal 语 言 〈( 像 C 语 言 一 样 ) 认为 多 维 数组 是 数组 的 数组 。 这 意味 着 不 提供 全 部 下 标的 部 分 下 标 
(partial indexing) 情况 也 是 合法 的 。 此 结果 就 是 某 个 子 数 组 一 一 这 是 一 个 合法 的 数据 对 象 。 为 处 理 这 种 
特性 ， 我 们 必须 非常 仔细 且 不 能 太 快 地 完成 下 标的 处 理 。 例 如 ， 在 Pascal 中 ， A[iD]fk] 是 合法 的 且 等 价 于 
A[ij,k]， 此 时 必须 小 心 处 理 不 能 将 第 一 个 ] 错误 地 解释 为 下 标的 终结 。 正 确 处 理 的 关键 就 是 把 后 面 紧 跟 
[ 的 ] 当 作 等 价 的 去 号 。 为 此 必须 修改 文法 来 推迟 例 程 finish_index( ) 的 调用 ， 直 到 出 现在 ] 后 面 的 
记号 不 是 [为 赴 。 

为 处 理 部 分 下 标 ， 必 须 修 改 例 程 finish_index( ) 以 识别 可 能 选择 子 数组 的 情况 。start _index( ) 
和 index( ) 不 需要 改动 。 但 什么 地 址 是 合适 的 呢 ? 对 行 主 序数 组 而 言 ， 我 们 可 以 利用 所 有 子 数组 均 是 连 
续 分 配 的 这 一 事实 。 因 此 子 数 组 的 地 址 就 是 它 的 第 一 个 元 素 的 地 址 。 也 就 是 说 ， 对 刚才 讨论 的 三 维 数组 
而 言 ， 地 址 A 等 价 于 Ali,1,1] 的 地 址 。 经 过 适当 修改 的 finish_ingdex( ) 版 本 如 下 : 398 





399 
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finish index(«name», «name Suffix») => «name» 
{ 
Let Cnt = «name suffix>. index. count 
Check that Cnt <= n, the dimensionality of the array 
described by «name».data object 
If Cnt < n, then use Lonis... L, to complete 
calculation of the component address (Calls to 
index() can be used to help) 
Let Vp be the address stored at 
«name suffix». index.var part adr 7 
Obtain con part from the array's dope vector. 
element size is a constant known at compile-time 
Generate code for 
Vp -= con part; 
Vp *- element size; 
Vp += «name».data object .addr; 
«name» — a DATAOBJECT record whose type is 
the type of the selected subarray 
and whose address is that of the temporary, Vp, 
with indirect set to TRUE (since the temporary 
contains the address of the element referenced) 
} 


4 允许 部 分 下 标 时 (WE BIER), ， 在 内 情 向 量 中 包含 子 数组 的 大 小 信息 就 显得 非常 有 用 了 。 我 
们 可 以 通过 以 下 步 又 推导 出 这 些 信息 : 

令 S) 为 整个 数组 的 大 小 。 

令 S。 为 子 数 组 A(Li) 的 大 小 。 

令 Ss 为 子 数组 A(L1, La) 的 大 小 。 

令 S, 为 子 数组 ALL,，.…, La) 的 大 小 。 
AlL, =, L;) 的 大 小 是 编译 时 常量 ， 也 就 是 数组 基 类 型 的 大 小 。 
该 值 是 存放 在 符号 表 中 而 不 是 在 (运行 时 的 ) 内 情 向 量 中 。n 
HE (下 标 ) 数组 类 型 的 内 情 向 量 的 构成 如 图 11-8 所 示 。 图 11-8 n 维 数组 的 内 情 向 量 模板 

如 果 数 组 的 所 有 边界 都 是 常量 ， 则 上 述 所 有 信息 均 可 存放 在 符号 表 中 。 否 则 ， 它 们 将 在 运行 时 计算 
并 使 用 。 如 果 有 以 下 的 类 型 声明 : 

type A is array(1..N) of Float; 


则 所 有 的 内 情 向 量 信息 ， 不 论 ———— P. 都 将 被 
所 有 类 型 为 A 的 数组 共享 。 每 一 个 数组 都 可 以 用 它 的 数据 的 开始 地 址 来 表示 。 如 果 在 变量 声明 中 使 用 了 
数组 生成 器 ， 例 如 : 

A :array(1..N) of Float; 
那么 生成 的 内 情 向 量 只 能 用 于 数组 A。 假 定 有 如 下 声明 : 

A : array(1..N,10..M) of Integer; 


在 编译 时 刻 ， 我 们 在 当前 活动 记录 中 为 A 的 内 情 向 量 以 及 指向 它 的 数据 区 的 指针 分 配 空间 。 在 运行 时 刻 ， 
就 在 进入 相关 作用 域 以 及 必要 的 活动 记录 的 操作 完成 后 ， 我 们 执行 计算 数组 边界 的 代码 ， 填 写 内 情 向 量 并 
分 配 数组 A 的 空间 。 假 定 A 创建 的 时 候 ，N=10，M=15。 首 先 ， 我 们 填写 这 些 边界 ， 得 到 如 图 11-9 所 示 的 内 
情 向 量 。 | 

然后 ， 我 们 用 以 下 参数 调用 数组 分 配 库 例 程 

。 数 组 维 数 (此 例 中 为 2)。 

。 内 情 向 量 地 址 。 

。 数 组 A 的 数据 区 指针 的 地 址 。 
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。 当前 活动 记录 的 stack_top 的 地 址 。 在 此 例子 中 ， 假 定 stack_top 值 为 100，。 
。 数 组 元 素 大 小 (此 例 中 为 1)。 
该 库 例 程 完成 以 下 工作 : | | 

。 根 据 (已 在 内 情 向 量 中 的 ) 值 L 和 U 计 算 D 值 : 
Di = Ui - L +1。 在 这 个 例子 中 ，D'=10， 
D;-6. 

。 然后 计算 con part. whl, con part = 
L,D.+L, = 16。 

。 接 着 再 计算 值 S。 此 例子 中 : 
Sz=Dz x element size = 12 | (? 意味 着 仍 未 确定 ) 
S,-D, x Sp = 120 | | 

图 11-9 用 数组 边界 值 初始 化 的 内 情 问 量 

。 最 后 ， 该 例 程 为 A 分 配 的 空间 。 它 将 A 的 数据 : 

区 地 址 置 为 stack_top 的 当前 值 ， 然 后 将 stack_top 增 加 Si 个 字 长 。 
该 库 例 程 返 回 时 ， 所 完成 内 情 向 量 和 数据 区 指针 如 图 11-10 所 示 。 








ops L5-10 Up=15 


图 11-10 EZRA 1 3E 


为 处 理 整个 数组 A， 我 们 可 以 使 用 它 的 地 址 (100) 和 大 小 (S, = 120)。 在 处 理 数组 元 素 ， 如 
A(3,12) 时 ， 我 们 计算 其 地 址 为 : 
(i,D2*i—con. part) x element_size+start_address = (3x6+12-16)x2+100= 128 


其 中 element_size 是 一 个 编译 时 常量 (INTEGERSIZE == 2). 
”为 处 理子 数组 A(3)， 我 们 计算 其 地 址 。 该 地 址 和 元 素 A(3,10) 的 地 址 相同 : 
(3 x 6+10-16) x 24100 = 124。 该 子 数组 的 大 小 为 Sz>=12。 
带 有 类 型 描述 符 的 行 主 序 
另 一 种 处 理 多 维 数组 的 方法 是 将 它们 一 律 看 成 数组 的 数组 (如 果 语 言 定义 允 许 的 话 )。 任 意 类 型 的 
数组 在 符号 表 中 的 条 目 给 出 其 边界 (如 果 已 知 的 话 )、 下 标 类 型 和 基 类 型 ， 此 基 类 型 本 身 也 可 以 是 数组 
AY, Hl, BRL PRA: 


A : array (1..10) of array (0..5) of array (3..4) of Integer; 


上 述 类 型 将 包含 四 个 不 同 的 类 型 记录 条 目 。 首 先 ，integer 类 型 在 其 预定 义 条 目 中 指出 该 类 型 的 值 占 
用 一 个 字 长 。 其 次 ， 类 型 array (3..4) of Integer 在 其 类 型 记录 中 指出 它 是 边界 为 3 和 4 的 数组 类 型 ， 其 基 
类 型 是 整 型 ， 同 时 整个 对 象 大 小 的 是 4。 这 个 类 型 是 匿名 的 ， 也 就 是 说 ， 它 没有 相应 的 类 型 名 字 ， 但 我 
们 还 是 要 为 它 创建 一 个 类 型 记录 。 如 果 此 类 型 有 名 字 T， 那 么 T 在 符号 表 中 的 条 目 将 指向 它 的 类 型 记录 。 
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为 保持 内 容 的 可 读 性 ,我 们 将 发 明 那 么 一 个 名 字 ， 如 Type&1。 当然 , 这 个 名 字 不 会 实际 出 现在 符号 表 中 。 
再 者 ， 类 型 array (0..5) of array (3..4) of lnteger 的 类 型 记录 (匿名 类 型 ， 称 为 Type&21) 表明 它 也 是 数 
组 类 型 ， 边 界 范围 为 0 和 5， 其 基 类 型 是 Type&1。 这 种 类 型 的 对 象 大 小 为 6 x 4=24。 最 后 ，A 的 类 型 将 是 
第 三 个 匿名 类 型 ，Type&3。 它 同样 是 数组 类 型 ， 边 界 为 1 和 10， 基 类 型 为 Type&2， 该 类 型 对 象 大 小 为 
240。 变 量 A 在 符号 表 中 的 条 目 将 包括 它 的 开始 地 址 〈 在 活动 记录 中 偏 移 ) 和 其 他 的 信息 ， 诸 如 ， 声 明 A 
的 词法 作用 域 等 。( 在 C 语 言 中 ， 多 于 一 维 的 数组 在 定义 上 也 是 数组 的 数组 ， 因 此 可 以 应 用 上 述 技术 。) 

现在 考 虚 编 译 A(3,4,4)。 在 看 到 第 一 个 下 标 时 ， 我们 核对 了 A 是 数组 类 型 以 及 3 为 合法 下 标 。A(3) 的 地 
址 是 start_address{A)+sizeof(Type&2) x (3—1) = start_address(A)+48， 它 的 类 型 是 Type&2。 在 看 到 第 二 
个 下 标 时 ， 检 查 了 Type&2 是 数组 类 型 且 4 是 合理 的 下 标 。A(3,4) 的 地 址 为 start_address(A(3)) 
+sizeof(Type&1) x (4~0) = start_address(A)+48+4 x 4-start address(A) +64。 类 似 地 ，A(3,4,4) 的 地 址 
为 start_address(A)+66， 它 的 类 型 是 Integer。 如 果 分 析 了 A(3,4) 就 停止 处 理 ， 那 我 们 就 可 以 得 到 类 型 为 
Type&1 的 对 象 的 正确 地 址 。 

以 上 我 们 列举 了 此 例 中 最 简单 的 情况 : 具有 常量 下 标的 非 动态 数组 。 如 果 下 标 为 任意 表达 式 ， 那 么 
范围 检查 以 及 地 址 计算 就 必须 推迟 到 运行 时 刻 进行 。 对 编译 器 来 说 ， 产 生 那 些 合适 的 代码 是 非常 容易 的 。 

处 理 动 态 数组 时 ， 编 译 器 仅 知 道 其 类 型 而 不 知晓 其 边界 。 包 括 匿 名 类 型 在 内 的 每 一 个 动态 类 型 ， 它 
们 的 内 情 向 量 在 运行 时 才能 构造 。 这 些 内 情 向 量 需 要 用 来 存放 边界 和 对 象 大 小 ， 但 不 指向 数组 本 身 。 我 
们 称 这 些 内情 向 量 为 类 型 描述 符 (type descriptor)。 严 格 地 讲 ， 所 有 的 动态 或 含有 动态 子 类 型 的 类 型 都 
需要 类 型 描述 符 。 若 以 牺牲 效率 为 代价 来 换取 类 型 处 理 上 的 一 致 性 ， 那 么 也 可 以 为 非 动态 类 型 构造 类 型 
描述 符 。 类 型 描述 符 就 像 变量 一 样 存 放 在 活动 记录 中 。 当 进入 作用 域 时 ， 每 个 类 型 描述 符 中 的 边界 和 对 
象 大 小 将 被 初始 化 。 例 如 ， 假 定 A 的 声明 如 下 : 

A : array (1..10) of array (0..n) of array (3..4) of Integer; 
其 中 Type&1 不 需要 类 型 描述 符 ， 这 是 因为 它 的 边界 和 元 素 大 小 在 编译 时 均 已 明确 。 另 一 方面 ，. 
Type&2 和 Type&3 却 需要 运行 时 的 类 型 描述 符 ， 这 是 因为 Type&2 的 边界 和 Type&3 的 大 小 取决 于 运行 
时 n 的 值 。 图 11-11a 显 示 了 在 任何 运行 时 的 信息 填 和 信之 前 由 编译 器 生成 的 类 型 描述 符 。 图 11-11b 显 示 了 
在 块 入 口 处 已 初始 化 且 包 含 了 所 有 运行 时 信息 的 类 型 描述 符 ， 假 定 此 时 n = 23. | | 

很 多 变量 (如 此 例 中 的 A) 均 在 活动 记录 中 有 相应 的 位 置 。 事 实 上 ， 所 有 我 们 存放 在 那里 的 只 是 指 

向 运行 时 栈 中 动态 区 域 的 指针 。 在 遇 到 下 标 表达 式 时 ， 编 译 器 根据 存储 在 类 型 描述 符 中 的 信息 生成 计算 


地 址 (和 边界 检查 ) 的 代码 。 
descriptor for Type&3 


a) 编译 器 生成 的 类 型 描述 符 


rice [ucm [sm 


b) 进入 作用 域 后 的 类 型 描述 符 






descriptor for Type&2 





descriptor for Type&3 





descriptor for Type&2 





图 11-11 


我 们 可 以 很 简单 地 实现 “数组 的 数组 ”的 策略 。INDEX 语 义 记录 以 及 例 程 start_index() 和 
finish index( ) 均 不 再 需要。 下 面 的 产生 式 显 示 了 何 时 必须 调用 修改 过 的 indqex( ) AE: 
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«name» «name suffix> —^ «name» ( «expression» #index 
( , «expression» #index ) ) 


这 里 ，index( ) 期 待 两 个 DATAOBJECT 语 义 记 录 ， 其 中 之 一 代表 数组 ， 另 一 个 则 代表 下 标 表 达 式 。 它 产 
生 描述 所 选 数 组 元 素 的 DATAOBJECT 记 录 。 


index (<name>, <expression>) => <name> 
{ 
Check that «name».data object.object type describes 
an array. 
Check that «expression».data object.object type agrees 
with the index type it requires. 


If subscript checking is enabled, generate code to 
check that L <= «expression» <= U. L and U are 
obtained from «name».data object.object type. 
The actual values may be in a run-time type 
descriptor for that type, or they may be in the 
symbol table. If only one of the two bounds is 
known àt compile-time, at least that bound might 
be kept in the symbol table, since we can 
usually generate better code with that 
knowledge. (For machines with a range-check 
instruction, it may be more efficient to put 
even the known bound in the run-time type 
descriptor so that the instruction can be 


applied.) 


Let V be the address of the array described by 
«name».data object. Let D be the size of the 
element type of the array. D might be known at 
compile-time or might be stored in a run-time 
type descriptor. Allocate a temporary T and 
generate code for T= V + (<expression> - L) + D. 
Much of this computation might be done at 
compile-time. If <expression>, L, and D are all 
know at compile-time, no code needa to be 
generated at all. 


«name» <- a DATAOBJECT record whose type is 
the element type of the array and whose address 
is that of the temporary, T, with indirect set 
to TRUE (since the temporary contains the 
address of the element referenced) - 


) 

这 种 “数组 的 数组 ”方法 需 为 每 个 下 标 做 减法 。 在 11.2.3 节 中 为 避免 此 类 减法 而 提出 的 虚拟 起 始 地 
址 方法 在 这 里 并 不 适用 ， 尽 管 在 下 标 列表 中 的 第 一 个 表达 式 后 ， 当 index( ) 被 调用 的 时 候 ，L x D 可 以 在 
编译 时 从 V 的 伪 移 中 减 去 ， 假 定 这 里 V 采 用 直接 地 址 表示 。 | 

使 用 图 11-11 中 的 类 型 描述 符 ， 可 将 诸如 A(l,J,K) 的 引用 翻译 如 下 : 

(RANGETEST, 1, 10, !) 


(SUBI, 1, 1, t1) 
(MULTI, t1, Type&3.size, t2) 
(ADDI, Addr(A), t2, t3) —- t3 contains the address of A(1) 


(RANGETEST, 0, Type&2.upper, J) 
(MULTI, J, Type&2.size, 14) 


(ADDI, t3, t4, t5) -- t5 contains the address of A(1,J) 
(RANGETEST, 3, 4, K) 

(SUBI, K, 3, t6) 

(MULTI, t6, 2, t7) —— multiply by Type&1.siz 

(ADDI, t5, t7, t8) —— 18 contains the address of A(l,J,K) 


在 此 例 中 ， 使 用 了 类 型 描述 符 中 的 成 员 ， 例 如 ，Type&3.size。 这 样 做 是 为 了 简化 表达 式 的 处 理 。 
该 符号 实际 上 将 翻译 为 一 个 在 编译 时 可 计算 的 活动 记录 中 的 偏 移 ， 就 像 名 为 | 的 变量 所 做 的 那样 。 


向 量化 结构 
这 种 结构 形式 有 时 称 为 代码 字 (codeword) 方法 (因为 指向 子 数 组 的 指针 称 为 代码 字 )。 





AFEA, … 站， 我 们 使 用 下 标 h 到 in-, 来 索引 指针 向 量 。in 则 用 来 索引 向 量 元 素 。 例 如 : 
A: array(1..2,1..3,1..4) of Integer; 


该 数组 的 存储 如 图 11-12 所 示 。 





[ AU | 













图 11-12 向 量化 的 数组 结构 


这 种 结构 形式 有 如 下 特性 : | 

。 向 量 不 需要 连续 化 ， 甚 至 不 需要 驻 留 在 内 存 。 此 特性 有 助 于 处 理 非 常 大 的 数组 或 在 地 址 范围 或 段 
大 小 受 限 制 的 机 器 上 使 用 。 | 

。 不 需要 做 乘法 操作 。 这 种 特性 在 乘法 操作 较 慢 时 显得 很 有 用 。 它 也 可 以 执行 的 很 快 ， 如 果 有 特殊 
的 指令 可 用 来 追踪 那些 指针 。 

¢D,+D,D, + … + D1 D,，; 个 指针 的 存储 需要 一 些 空间 开销 。 


11.3.2 含 动态 对 象 的 记录 


在 本 节 及 后 续 的 章节 里 ， 我 们 将 考虑 更 复杂 的 可 能 要 求 包 含有 动态 对 象 的 记录 结构 。 此 类 记录 需要 
更 复杂 的 处 理 技术 。 我 们 期 望 用 这 样 一 种 方式 来 表示 它们 ， 即 记录 赋值 可 以 较 容易 地 用 单个 块 传送 指令 
(或 等 价 的 循环 ) 来 实现 。 但 问题 是 ， 动 态 对象 是 用 指针 来 表示 的 ， 如 果 仅 拷贝 这 些 指针 ， 那 么 在 被 复 
制 的 记录 中 的 动态 对 象 可 以 通过 源 记 录 中 指向 相同 对 象 的 指针 来 表示 ， 这 将 导致 不 必要 的 混淆。 因此 我 
们 必须 拷贝 动态 对 象 本 身 ， 而 不 是 到 它们 的 引用 。 

首先 考虑 动态 数组 .例如 : - 


type A1 is array (1..0) of Integer; 
type A2 is array (1..J) of Float; 


type R is record 
B : integer; 


整个 记录 大 小 是 动态 变化 的 。 可 以 将 它 存放 在 运行 时 栈 中 活动 记录 里 ， 并 留 有 足够 的 空间 放置 域 D 和 FE 
的 指针 。 然 而 ， 在 记录 赋值 时 ， 这 些 指针 将 和 B、C 和 F 一 起 被 拷贝 ， 从 而 导致 前 面 所 述 的 不 必要 的 混 靖 。 
种 替代 方法 是 将 整个 记录 放置 在 运行 时 栈 上 大 小 固定 的 AR 之 后 【就 像 动态 数组 那样 )。 在 AR 中 ,我 
们 将 维护 一 个 结构 如 图 11-13 所 示 的 描述 符 。 

此 描述 符 可 用 来 访问 记录 域 和 进行 记录 的 赋值 。 在 此 记录 自身 的 组 织 结构 中 ， 数组 指针 包含 的 是 相 
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对 偏 移 而 非 绝对 地 址 。 记 录 赋 值 将 拷贝 正常 的 记录 域 (B、C 和 F) 和 数组 指针 (DME) 以 及 动态 对 象 
本 身 。 由 于 从 数组 指针 到 数组 的 偏 移 并 未 改变 ， 因 此 所 复制 的 数组 指针 也 将 指向 这 些 数 组 的 新 拷贝 。 


图 11-13 动态 记录 类 型 描述 符 


和 以 前 一 样 ， 在 编译 时 可 以 知道 固定 大 小 对 象 的 位 置 以 及 数组 指针 相对 于 记录 开始 处 的 偏 移 。 动 态 
数组 的 元 素 放 置 在 记录 的 末端 。 图 11-14 显 示 了 记录 A 的 结构 布局 。 
例如 ， 为 访问 A.C， 我 们 可 以 : 
。 使 用 A 的 描述 符 来 得 到 A 的 开始 地 址 。 
。 加 上 已 知 的 C 的 常量 偏 移 值 。 
为 访问 A.E(I)， 我 们 可 以 : 
。 使 用 A 的 描述 符 来 得 到 A 的 开始 地 址 。 
。 使 用 已 知 的 E 在 记录 中 的 偏 移 (此 位 置 中 存放 了 动态 数组 的 偏 移 ) 和 记录 的 开始 地 址 计算 数组 的 
开始 地 址 。 
。 使 用 数组 E 的 内 情 向 量 ， 和 以 前 一 样 来 计算 (var_part-con_part) x element size. 
包含 动态 数组 的 记录 和 普通 记录 仅 在 以 下 几 点 有 区 别 : 
“动态 记录 需要 使 用 一 层 间 接 访问 来 引用 动态 的 记录 域 。 ! 
。 动 态 记录 中 的 数组 指针 包含 数组 元 素 在 记录 中 的 偏 移 而 非 绝对 地 址 。 因 为 这 些 地 址 是 相对 的 ， 因 
此 数组 指针 ， 作 为 记录 的 局 部 传送 ， 可 以 毫 无 问题 地 进行 赋值 。 






数据 E 的 元 素 


(包含 A 的 ) 固定 
大 小 的 AR 的 结尾 


图 11-14 动态 记录 的 存储 布局 


含有 字符 串 的 记录 的 处 理 依然 很 复杂 。 如 果 使 用 渐 增 式 回 收 或 者 仅 人 允许 每 个 指针 一 个 引用 ， 那 么 我 
们 需要 单独 地 拷贝 每 一 个 串 。 这 样 ， 记 录 的 传送 就 必须 翻译 成 一 系列 单独 的 域 传 送 。 

作为 一 项 优化 ， 我 们 可 以 把 记录 中 不 含 电 的 相 邻 域 作为 一 组 来 传送 。 我 们 甚至 可 以 重新 编排 让 所 有 
非 字 符 串 的 域 相 邻 。( 此 重新 编排 的 选择 依赖 于 正 被 编译 的 语言 。C 语 言 要 求 结构 域 在 内 存 中 的 放置 顺序 
和 声明 中 的 顺序 一 样 。 然 而 ， 由 于 C 语 言 没有 动态 数组 ， 这 个 也 就 不 成 为 问题 ， 并 且 在 拷贝 结构 时 块 传 
送 总 是 可 以 进行 的 。) | 
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如 果 人 允许 串 的 多 重 引 用 (multiple reference) 和 进行 垃圾 回收 ， 那 么 包含 串 的 记录 赋值 就 不 需要 特 
殊 的 处 理 。 然 而 ， 在 垃圾 回收 时 ， 我 们 还 是 需要 痪 历 这 样 的 记录 并 标记 它 引 用 的 串 。 类 似 的 考虑 可 用 
在 字符 串 数 组 上 ， 但 这 种 情况 下 ， 可 以 很 容易 找到 并 处 理 那些 单独 的 串 描 述 符 。 
记录 的 类 型 描述 符 
遗 惰 的 是 ， 刚 才 瓜 述 的 方法 在 处 理 上 略为 复杂 的 类 型 时 就 显得 很 不 实用 。 例 如 ， 考 虚 如 下 的 声明 : 


type T! is array(1..!) of pe ll 
type T2 is array(1..J) of Float 
type T3 is record 

B : Integer; 

C : Float; 

D:T1; 

E: T2; 

F : Boolean; 


end record; 
type T4 is array(1..10) of T3; 
X: T4; 


如 果 我 们 沿用 前 面 章节 里 的 方法 ， 就 必须 在 X 的 10 个 条 目 中 的 每 一 个 中 放置 记录 描述 符 来 初始 化 X。 
X 中 每 一 个 记录 也 必须 初始 化 。 如 果 X 是 动态 数组 ， 则 又 多 了 一 层 复杂 性 。 那 种 记录 和 动态 数组 任意 代 
套 的 一 般 情 况 通 常 很 难 理解 。 

相反 地 ， 我 们 考虑 一 种 通用 的 解决 方案 ， 它 使 用 早 些 时 候 我 们 在 处 理 多 维 数组 时 所 提出 的 运行 时 类 
型 描述 符 。 恋 描述 符 可 以 很 好 地 适用 于 记录 。 在 这 个 记录 类 型 描述 符 中 每 个 域 都 有 单个 的 条 目 以 表示 访 
记录 域 到 记录 开始 地 址 的 偏 移 。 它 也 包含 存放 整个 记录 长 度 的 条 目 。 如 果 一 个 域 是 动态 的 ， 即 该 记录 域 
要 么 是 动态 数组 ， 要 么 它 含有 一 个 包含 某 种 层次 的 动态 数组 的 结构 ， 那 么 它 后 面 域 的 偏 移 以 及 整个 记录 
的 长 度 在 编译 时 就 无 法 确定 。 

图 11-15a 给 出 上 述 例子 在 块 入 口 处 尚未 全 部 填写 的 运行 时 描述 符 。 假 定 在 进入 块 时 | 是 5，J 是 6， 那 
么 这 些 运行 时 描述 符 的 修改 将 如 图 11-15b BAN. 


> | T1 的 描述 符 
T2 的 描述 符 


T3 的 描述 符 


T1 的 描述 符 
T2 的 描述 符 


T3 的 描述 符 





b) 初始 化 后 的 记录 类 型 摘 述 符 
图 11-15 
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同 先前 一 样 ， 变 量 在 活动 记录 中 有 存储 位 置 。 这 些 位 置 中 保存 的 绝对 指针 指向 在 活动 记录 中 国定 长 
| 度 部 分 之 后 为 那些 对 象 所 预 留 的 内 存 位 置 。 预 留 内 存 的 大 小 可 在 类 型 描述 符 的 size 域 找到 。 记 录 赋 值 将 
整个 数据 块 从 内 存 的 某 个 区 域 传送 到 另 一 个 区 域 而 不 需要 担心 做 套 的 指针 :; 因为 这 里 没有 此 类 指针 ! 数 


据 块 传送 的 长 度 可 以 在 运行 时 从 AR 中 的 某 个 编译 时 已 知 的 偏 移 位 置 上 的 合适 的 类 型 描述 符 中 的 合适 的 


size 域 中 找到 。 | 

一 种 有 效 实现 类 型 描述 符 初 始 化 的 方法 是 ， 为 它 保存 一 个 在 编译 时 尽 可 能 多 地 填写 的 模板 。 编 译 器 
创建 该 模板 并 把 它 放 置 在 程序 已 初始 化 的 数据 区 中 。 块 的 入 口 首先 要 将 此 模板 拷贝 到 AR 中 ， 然 后 填写 
其 中 未 初始 化 的 部 分 。 作 为 选择 ， 可 以 只 把 那些 编译 器 不 知道 的 部 分 实际 存放 在 AR 中 。 这 种 做 法 需要 
小 心 处 理 ， 因 为 AR 中 的 偏 移 很 难 追踪 。 | 

所 有 动态 对 象 的 运行 时 类 型 描述 符 均 简 化 了 存储 管理 。 以 下 三 个 运行 时 的 区 域 均 包含 了 任意 数据 对 
象 的 信息 ， 无 论 有 多 么 复杂 : 类 型 描述 符 、 变 量 空间 和 数据 本 身 。 类 型 描述 符 有 固定 的 长 度 并 在 AR 中 
已 知 的 偏 移 处 存放 且 被 所 有 该 类 型 的 变量 共享 。 变量 空 间 也 有 固定 的 长 度 ， 亦 在 AR 中 已 知 的 偏 移 处 并 
指向 对 象 的 数据 区 ，。 | 

在 某 个 作用 域 中 声明 的 类 型 也 可 以 在 所 内 套 的 作用 域 中 使 用 。 编 译 器 记 住 每 个 类 型 的 做 套 深 度 及 其 
类 型 描述 符 在 AR 中 的 偏 移 。 在 运行 时 可 以 使 用 静态 链 和 做 或 显示 表 来 查找 声明 为 非 局 部 的 动态 类 型 的 变 
量 的 类 型 描述 符 。 | 


11.3.3 变 体 记 录 


编译 变 体 记录 的 域 比 在 10.3.5 节 中 处 理 变 体 记 录 的 声明 要 简单 得 多 。 事 实 上 ， 只 需 对 在 11.2.3 节 中 
描述 的 例 程 field_name( ) 稍 做 扩展 即 可 处 理 包含 在 变 体 中 的 域 的 引用 。 

包含 在 变 体 中 的 域 的 引用 若 要 合法 化 ， 那 么 外 围 标签 域 的 值 必 须 匹 配 变 体 的 标记 。 为 此 必须 产生 代码 以 
检验 域 引用 的 合法 性 ， 就 像 数 组 边界 检查 那样 。 使 用 在 第 10 章 为 变 体 记 录 定 义 的 复杂 的 type_dGescriptor 结 
构 可 以 很 容易 地 产生 那些 检查 代码 。 在 attributes 记 录 中 field 变 体 在 其 enclosing_variant 域 中 包括 一 
个 指向 struct variant des 的 指针 。 


struct { /* class == FIELD */ 
address range field offset; 
struct attributes *next field; 
struct variant des *enclosing variant; 
boolean is tag; 
) 


如 果 这 个 指针 为 NULL ， 那 么 表明 该 记录 域 不 在 某 个 变 体 中 且 不 需要 做 有 关 的 检查 。 如 果 此 记录 域 在 某 个 
变 体 中 ，struct variant_des 将 提供 用 来 产生 检查 代码 的 信息 : 


struct variant des { 
long choice_value; 
attributes *tag_field; 
attributes *field list; 
struct variant des *inner variants; 
struct variant des *next variant; 
}; 


运行 时 的 检查 将 测试 由 tag_field 引 用 的 域 的 值 是 否 等 于 choice_value。 如 果 不 相等 ， 则 产生 一 个 运 
行 时 错误 或 异常 。 | 

Hasek BLE, BD we ee Se MattributesizzR + Menclosing varianti/&, LABES 
判别 标签 域 本 身 是 否 包含 在 另 一 个 变 体 中 。 如 果 是 的 话 ， 必 须 使 用 标签 域 的 外 围 enclosing_variant 
来 重复 相同 的 处 理 。 m 
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11.3.4 访问 类 型 的 引用 


在 Pascal 语 言 中 ， 指 针 引 用 显 式 地 用 符号 1 来 标识 。 在 Ada 和 Ada/CS 语 言 中 ， 在 访问 对 象 的 名 字 后 
使 用 .ail 作 为 一 种 <name suffix> 来 表示 整个 对 象 的 引用 。 然 而 ， 被 引用 的 对 象 中 成 员 的 引用 不 需要 特 
别 的 语法 标识 。 因 此 ，A.D 既 可 以 表示 为 记录 A 中 域 D 的 引用 ， 又 可 以 表示 访问 对 象 (We) A 所 指向 的 
记录 中 的 域 D 的 引用 。( 在 C 语 言 中 ，A.D 的 意思 要 么 是 A.D， 要 么 是 A->D。) 
我 们 首先 考虑 显 式 引用 的 情况 : 


<name> — «simple name> ( «name suffix> ) [ . all #access_ref ] 


例 程 access_def( ) 用 来 处 理 那 些 找 述 访问 类 型 对 象 的 DATAOBJECT 记 录 。 乍 看 起 来 ， 例 程 
access_def() 务 必 会 生成 一 些 少量 的 代码 。 访 问 对 象 只 是 个 指针 ， 因 此 ， 其 地 址 是 它 所 引用 对 象 的 间 
接地 址 。 这 样 ， 如 果 在 DATAOBJECT 记 录 中 地 址 不 是 间接 地 址 ， 那 么 仅 需 要 将 indirect 标 志 设 为 TRUE。 
如 果 该 地 址 已 是 间接 地 址 ， 则 需要 有 关 元 组 来 执行 一 次 间接 访问 。 与 如 此 计算 的 地 址 对 应 的 类 型 即 为 访 
问 类 型 所 引用 的 类 型 。 

不 幸 的 是 ， 事 情 不 会 这 么 简单 。 我 们 无 法 保证 访问 对 象 包含 有 效 的 数据 对 象 引用 。 该 对 象 可 以 含有 
空 指针 (在 Ada 中 表示 为 null， 在 Pascal 中 为 nil) 。 在 那些 对 变量 初始 化 没有 语法 描述 以 及 不 要 求 所 有 指 
针 变 量 均 要 初始 化 的 语言 中 (例如 ，Pascal 和 Modula-2)， 访 问 对 象 可 能 是 未 初始 化 的 ， 因 此 也 就 包含 着 
随机 值 。 最 后 ， 如 果 人 允许 显 式 的 空间 释放 (如 Pascal 中 的 Dispose，Ada 中 的 Unchecked_Deallocation )， 
那么 访问 对 象 则 可 能 指向 一 块 已 经 (使 用 同一 对 象 的 其 他 引用 来 ) 释放 的 存储 区 域 。 在 这 种 情况 下 ， 我 
们 将 得 到 一 个 是 空 指针 。 因 此 ， 指 针 引 用 需要 运行 时 的 检查 ， 其 意义 在 某 种 程度 上 和 数组 下 标 表达 式 的 
边界 检查 一 样 。 

如 果 希 望 仅 检查 指针 是 否 为 空 (就 像 许多 Ada 实 现 版 本 所 做 的 ， 这 是 因为 在 Ada 中 访问 对 象 必须 初 
始 化 且 不 需要 检查 Unchecked_Deallocation )， 我 们 可 以 为 null 选 择 一 个 特殊 的 值 以 便 在 用 它 来 寻 址 对 
象 时 引起 地 址 故障 。 该 故障 可 被 语言 的 运行 时 系统 捕获 并 被 转换 成 适当 的 错误 信息 。 如 果 这 样 的 故障 可 
由 硬件 产生 并 被 及 时 捕获 ， 那 么 这 类 空 指针 的 检查 即 可 随时 (免费) BUB. 

未 初始 化 指针 和 悬空 指针 (包括 空 指针 ) 需要 更 多 的 显 式 检查 。 UW-Pascal 为 此 实现 了 一 一 种 有 效 的 
检查 机 制 (Fisher and LeBlanc，1980)。 使 用 该 技术 ， 访问 对 象 由 所 引用 的 地 址 加 上 另 一 个 称 为 key 的 域 
组 成 。 访 问 对 象 所 引用 的 对 象 也 配 有 一 个 额外 的 称 为 lock 的 域 。 当 动态 对 象 分 配 时 ， 它 们 均 配 备 了 惟一 
的 lock 值 ( 模 上 lock 域 所 表示 的 最 大 值 )。 由 分 配 例 程 创建 的 指针 在 其 key 域 中 包含 与 之 匹配 的 位 串 


( 见 图 11-16 )。 
[tock | Sue | 
Lock=Key 
[ Ke | Ades 
访问 对 象 动态 对 象 


图 11-16 动态 对 象 及 其 指针 的 存储 布局 


指针 赋值 必须 同时 拷贝 key 域 和 address 域 ， 这 样 创建 的 新 的 访问 对 象 拷贝 就 可 以 合法 地 访问 给 定 
的 动态 对 象 了 。 对 动态 对 象 的 访问 若 要 合法 化 ， 它们 之 间 的 key 域 和 lock 域 就 必须 匹配 。 对 空 指针 来 说 ， 





RIE RIL K Fe RHE FS 14 2] 7H \ 263 


此 项 检查 将 失败 ， 因 为 任何 空 指针 会 引起 地 址 故障 。 未 初始 化 的 指针 可 能 引起 地 址 故障 ， 或 它 的 地 址 域 
可 能 包含 一 个 可 以 合法 地 解释 为 某 个 地 址 的 位 串 。 在 后 面 一 种 情况 下 ，key 域 和 1ock 域 的 位 不 大 可 能 匹 
配 。 为 处 理 悬 空 指针 ， 有 释放 例 程 必 须 修 改 它 所 释放 的 任何 对 象 的 1ock 位 串 。 然 后 ， 指 向 该 对 象 的 其 余 指 
针 将 由 于 key 域 和 lock 域 的 测试 失败 而 无 效 。 | 

假定 指针 引用 涉及 比 改变 标志 indirect 为 TRUE 更 多 的 处 理工 作 ， 那 么 语义 例 程 access_ref() 就 
必须 产生 元 组 以 通知 代码 生成 器 为 动态 对 象 引用 产生 代码 。 例 如 ， 

(AccessRef, «name».data object, T) 


其 中 ，T 是 为 此 目的 而 产生 的 新 的 临时 变量 。 

由 于 动态 对 象 成 员 的 引用 缺乏 显 式 的 语法 描述 ， 因 此 在 前 面 章节 里 讨论 过 的 语义 例 程 
start_index() 和 field_name() 找 到 的 或 许 是 由 它们 的 某 个 语义 记录 输入 参数 所 描述 的 访问 类 型 对 
象 ， 而 非 某 个 数组 或 记录 。 在 这 种 情况 下 ， 上 述 每 个 例 程 可 以 先 调用 例 程 access_ref() ， 然 后 再 完成 
剩余 的 处 理工 作 。 | 


11.3.5 Ada 中 其 他 名 字 的 使 用 
在 11.2.1 节 里 ， 我 们 考虑 了 和 下 面 <simple name> 产 生 式 相 联 系 的 语义 例 程 new_name( ): M413 


«simple name> — «id» #new_name 


那 时 ， 我 们 假定 所 考虑 的 标识 符 是 常量 或 变量 ; 这 种 假设 意味 着 在 语义 栈 上 很 适合 用 DATRAOBJECT 记 录 
来 表示 标识 符 。 然 而 ， 也 存在 着 另外 一 些 可 能 性 ， 它 们 可 被 其 他 的 语义 析 条 有 目 很 好 地 处 理 。 标识 符 可 以 
是 类 型 名 、 包 名 、 外 围 子 程序 或 块 名 (用 于 限定 名 字 引 用 )、 函 数 名 (用 于 函数 调用 )。 如 果 标 识 符 是 类 
型 名 ， 那 我 们 将 用 含有 相应 type_descriptor 引 用 的 TYPEREF 记 录 来 表示 它 。 至 于 其 他 的 情况 ， 我 们 
引入 新 的 语义 栈 记录 类 型 来 简单 地 存放 该 标识 符 的 属性 引用 直到 该 名 字 的 使 用 得 到 进一步 解析 为 止 : 


struct attributes_type { 
attributes *attribute_ref; 
}; 


现在 定义 例 程 new_name( ) 的 扩展 版 本 : 


new_name(<id>) => «simple name» 

{ 
Find <id>.id.id in the symbol table 
Let A reference its attributes. 


if (A.class == CONST || A.class == VARIABLE) 
<simple type> < a DATAOBJECT record with 
appropriate information extracted from the 
symbol table attributes. 
else if (A.class == TYPENAME) 
«simple type» +- (struct type ref) i 
.object_ type = A.id type; ) 
else if (A.class == PACKAGENAME 
| A.class == SUBPROGRAMNAME 
|| A.class == BLOCKNAME 
|| A.class == LOOPNAME) 
«simple type» < (struct attributes type) { 
.attribute ref = A; } 


lse 
«simple type» + an ERROR record 
) 


在 重新 定义 new_name( ) 之 后 ， 必 须 考虑 <name suffix> 的 语法 中 可 能 的 语义 处 理 。 首 先 ， 考 虑 先前 讨论 
过 的 处 理 记录 域 引用 的 情况 。 
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<name> — «simple name> { «name suffix» } 


«simple name» — «id» new name 
«name suffix» — . «Selected suffiss ifselected | name 
«Selected suffix» — «id» 


— «operator symbol or string» 
«operator symbol or string> — STRINGLITERAL 
例 程 selecteqd_name( ) 的 简化 版 本 ， 即 称 为 field_name( ) 的 例 程 曾 在 11.2.3 节 中 讨论 记录 时 出 现 
过 。 现 在 考虑 其 他 的 选择 : 


selected name(«name», «selected suffix») => <name> 


if (<name>. record kind == DATAOBJECT 
&& «selected suffix>. record kind == ID) 
Process as described for field | name(). 
else if («name».record kind == PACKAGENAME) { 
Search the symbol table of the package for the 
identifier or operator symbol designated by 
«selected suffix» and retrieve its 
attributes. 
Process the attributes retrieved above just 
as in new name(). 
) else if (<name>.record kind == ATTRIBUTES 
&& <name>.attributes.attrs names a currently 
open scope) { 
Search for the identifier or operator symbol 
designated by «selected suffix» in 
that symbol table of the scope and 
retrieve its attributes. 
Process the attributes retrieved above just 
as in new name(). 
) eise 
«name» <- an ERROR record 
} 


«name suffix> 的 带 括号 的 表达 式 列表 版 本 提出 了 更 为 复杂 的 问题 。 因 为 Ada/CS 中 函数 调用 和 数组 
引用 的 形式 在 语法 上 是 一 样 的 ， 所 以 在 11.2.3 节 、11.3.1 节 中 提出 的 语义 处 理 可 能 不 会 像 它们 所 描述 的 那 
样 简单 地 完成 任务 。 如 果 在 表达 式 列 表 前 的 <name> 所 指示 的 是 函数 而 非 数 组 ， 那 么 将 调用 与 例 程 
start index()、index() 和 finish_index() 类 似 的 有 关 例 程 。 另 一 种 选择 是 在 每 次 动作 例 程 触发 
时 检查 <name> 的 语义 记录 ， 然 后 (为 数组 下 标 或 函数 参数 ) 执行 合适 的 动作 或 者 收集 一 系列 表示 表达 
式 列表 的 DATAOBJEcT 记 录 ， 最 后 根据 <name> 的 语义 记录 (再 次 地 ， 区 分 函数 名 和 数组 引用 ) 处 理 上 
述 语 义 记录 列表 。 后 一 种 方法 可 能 是 较 好 的 选择 ， 因 为 它 与 函数 重 载 所 需 的 技术 配合 得 很 好 ， 同 时 还 因 
为 在 预定 义 的 语言 属性 的 语法 形式 中 也 使 用 了 带 括号 的 表达 式 列表 。 为 此 ， 我 们 使 用 以 下 语义 动作 符号 
的 布局 : 

«name suffix» — ( #start_expr_list <expression list» ) #name _plus_list 
其 中 ，<expression list> 语 法 中 的 动作 例 程 必须 将 DATAOBJECT 记 录 添 加 到 由 例 程 start_expr_list() 
初始 化 的 列表 中 。 

例 程 name_plus_1list() 检 查 <name> 的 语义 记录 。 如 果 它 是 数组 引用 ， 则 将 使 用 描述 在 11 .3.1 节 
中 的 技术 来 处 理 有 关 列表 。 如 果 是 函数 名 ， 那 将 使 用 在 第 13 章 里 讨论 的 技术 来 处 理 参数 ， 或 者 为 重 载 解 
析 建 立 所 需 的 结构 ， 该 结构 将 在 11.3.7 节 中 描述 。 每 一 种 选择 均 会 产生 一 个 DATAOJBJECT 语 义 记录 。 如 
果 <name> 表 示 的 是 其 他 东西 ， 则 产生 ERROR 记 录 。 

最 后 剩 下 的 一 种 <name suffix> 形 式 为 : 


«name suffix> — ‘id #process_attribute 


此 语法 中 的 标识 符 将 命名 预定 义 的 语言 属性 ， 该 属性 扮演 着 预定 义 函数 的 角色 。 很 多 属性 用 来 限制 (或 


修饰 ) 类 型 名 ,但 有 些 也 可 用 于 数据 对 象 。 一 些 有 参数 的 属性 采用 带 括号 的 表达 式 列表 的 语法 形式 。 最 
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好 将 属性 作为 特殊 的 情况 加 以 个 别处 理 。 多 数 属 性 可 以 直接 翻译 成 1 个 或 2 个 元 组 。 带 有 参数 的 属性 完全 
可 以 作为 编译 器 中 函数 来 使 用 以 配合 name_plus_list() 所 做 的 处 理 ， 或 者 我 们 可 以 在 该 例 程 中 建 并 其 
他 的 用 于 属性 处 理 的 措施 。 

最 后 ， 我 们 需要 在 <name> 的 产生 式 中 添加 一 个 动作 符号 : 


«name» «simple name» ( «name suffix» } [ . all #access_ref ] #finish_name 


例 程 finish_name( ) 不 做 任何 工作 ， 除 非 它 发 现 其 参数 是 某 个 无 参 函 数 的 属性 。 在 这 种 情况 下 ， 它 触 
发 调用 该 函数 所 必需 的 语义 处 理 。 


11.3.6 ”记录 和 数组 聚合 


X4 (aggregate) 是 一 种 联合 多 个 值 组 成 记录 或 数组 类 型 复合 值 的 操作 。 在 Ada/CS 中 ， 聚 合 的 语 
法 是 : 
<primary> 一 <aggregate> 
«aggregate» ”一 «name» ' ( «component» { , «component» } ) 
«component»  — [«choice list» => ] «expression» 
«choice list» 一 «choice» ( | «choice» } 
«choice» — «simple name> 
— «simple expression» 
— «discrete range» 
— others 


FRA «name» JU — ^r io cR PT AROBUB ER 这 样 它 可 以 表示 为 TYPEREF 记 录 。 形 式 
最 简单 的 聚合 是 其 中 的 每 个 成 员 仅 由 一 个 <expression> 组 成 。 这 里 仅 使 用 按 位 结合 。 例 如 ， 如 果 A 是 一 
个 数组 类 型 名 ， 其 下 标 范 围 为 1..5， 元 素 类 型 为 整 型 ， 那么 A (1,2,3,4,5) 表 示 一 个 类 型 A 的 对 象 ， 其 中 
A(1) = 1，A(2) = 2， 等 等 。 更 一 般 地 ， 部 分 或 全 部 的 成 员 信 可 以 是 表达 式 : A' (Llt1,l+2,4,5)。 现在 
A(1) =1，A(2) = I+2， 等 等 ， 但 前 3 个 成 员 的 值 在 编译 时 不 可 用 。 

为 编译 按 位 聚合 ， 我 们 可 以 简单 地 收集 成 员 的 值 直到 遇见 列表 结束 。 处 理 聚 合 的 语义 例 程 必须 为 类 
型 的 实例 分 配 空间 ， 检 查 是 否 提供 了 正确 的 成 员 个 数 和 类 型 (对 数组 而 言 ， 所 有 成 员 的 类 型 都 必须 相 
同 ， 而 记录 则 典型 地 需要 不 同 的 成 员 类 型 ) ， 然 后 生成 使 用 成 员 的 值 来 填写 聚合 的 元 组 。 编译 按 位 聚合 
时 的 主要 抉择 在 于 决定 应 在 何 处 分 配 人 聚合 的 空间 。 最 一 般 的 做 法 是 在 当前 活动 记录 中 分 配 空间 。 然而 ， 
这 种 做 法 有 一 个 缺点 : 如 果 其 中 有 带 有 常量 值 的 成 员 ， 那么 我 们 或 者 在 每 次 创建 当前 作用 域 的 活动 记录 
时 都 必须 初始 化 这 些 成 员 值 ， 抑 或 我 们 要 产生 填写 这 些 常 量 值 的 代码 。 另 一 种 可 供 选 择 的 方法 是 在 我 们 
先前 称 为 常量 区 的 静态 数据 区 中 为 聚合 分 配 空间 。 因 为 该 数据 区 是 静态 分 配 的 ， 所 有 只 需 在 程序 开始 执 
行 时 初始 化 那些 常量 成 分 。 此 种 方法 的 缺点 是 它 的 较 大 的 空间 需求 ; 并 且 我 们 要 为 程序 中 的 每 一 个 聚合 
静态 地 分 配 空 间 。 

当 聚 合 的 <component> 被 冠 以 前 缀 <choice list> 时 ， 称 为 按 名 结合 。 此 时 在 列表 中 的 位 置 不 再 有 意 
义 。 因 此 ， 前 面 的 第 一 个 例子 可 以 重 写 为 : 

A'(5 => 5, 4 => 4, 3 => 3, 2 => 2, 1 => 1) 


从 语法 上 ， 我 们 看 到 “选择 ”标签 可 以 包括 表达 式 、 范 围 和 关键 字 others ( 它 仅 在 列表 的 最 后 出 现 并 标 
注 一 个 赋 给 聚合 中 所 有 剩余 成 员 的 值 .) 这 些 选 择 实际 上 仅 对 数组 聚合 有 用 。 按 位 与 按 名 结合 的 组 合 使 
用 也 是 合法 的 ， 但 按 位 结合 必须 先 出 现 。 

按 名 结合 本 质 上 与 按 位 结合 没有 什么 不 同 ， 但 它 更 复杂 一 些 。 例 如 ， 在 处 理 开始 前 必须 收集 更 多 的 
信息 。 如 果 从 语义 栈 中 收集 列表 ， 那 么 为 了 避免 混淆 成 员 列表 在 何 处 结束 ， 需 要 对 选择 列表 和 成 员 列 表 
采用 不 同 的 分 隔 符 。 除 了 生成 元 组 以 将 指定 的 值 赋 给 京 合适 当 的 成 员外 ， 语 义 例 程 还 必须 检查 所 有 的 成 
员 是 否 均 被 赋值 且 没 有 成 员 被 多 次 赋值 。 
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最 后 ， 完 成 的 聚合 可 以 用 单个 DATAOBJECT 记 录 来 表示 。 
11.3.7 重 载 解 析 


为 允许 用 户 定义 的 类 型 来 扩展 语言 ， 可 以 赋予 Ada 中 的 标准 运算 符 额外 的 含义 来 表示 新 类 型 (或 现 
有 类 型 的 新 的 组 合 类 型 )。 正 如 在 11.2.2 节 讨论 eval_unary() 和 eval_binary() 时 所 提 到 和 的， 这 种 特 
性 称 为 重 载 ， 它 只 不 过 是 常见 子 程序 设计 语言 中 的 概念 的 外 延 。C++ 是 另 一 个 允许 重 载 的 出 色 的 语言 。 

在 Ada/CS 中 ， 可 以 重 载运 算 符 和 子 程序 的 名 字 。 而 在 Ada 中 ， 亦 可 重 载 枚 举 文字 常量 。 两 种 定义 能 
Bis (BR) 运算 符 或 子 程序 名 ， 只 要 它们 在 自 变 量 的 数目 或 类 型 ， 抑 或 是 结果 类 型 上 有 区 别 。( 可 
将 枚 举 文字 常量 看 成 无 参 函 数 . ) 至 于 任何 含有 重 载 名 字 的 表达 式 或 语句 ， 则 必须 通过 上 下 文 来 决定 使 
用 那些 共存 定义 中 的 哪 一 个 。 如 果 不 能 做 出 惟一 的 选择 ， 则 意味 着 出 现 错误 。 此 时 程序 员 必 须 通 过 定义 
标识 符 或 运算 符 的 块 、 子 程序 或 者 包 来 限制 它们 以 解决 二 义 性 《例如 ，Sqrt.Min(X) 而 非 Min(X))。 我 们 
也 可 以 用 类 型 限制 符 来 保证 结果 类 型 (例如 ，Float'(A,B))。 

自 变量 的 数目 和 类 型 以 及 结果 类 型 恰好 相同 的 (同名 ) 运算 符 或 子 程序 绝 不 能 同时 存在 。 如 果 其 中 
一 个 定义 和 另外 一 个 所 在 的 作用 域 不 同 ， 那 么 通常 的 作用 域 规则 可 以 发 挥 作用 且 在 内 层 的 定义 将 隐藏 其 
他 的 定义 。 如 果 两 者 均 在 相同 的 作用 域 中 定义 ， 则 会 产生 多 重 定义 的 错误 。 

在 所 有 隐藏 的 情况 中 (包括 变量 、 类 型 和 常量 的 名 字 )， 可 以 使 用 显 式 的 限制 符 来 引用 那些 被 隐藏 
的 名 字 (这 就 是 为 什么 块 允许 有 名 字 的 原因 )。 注 意 ， 只 有 运算 符 、 子 程序 和 枚 举 文字 常量 可 被 重 载 。 
所 有 其 他 的 名 字 只 能 有 被 作用 域 规则 确定 的 惟一 的 定义 。 

自 底 向 上 解析 

在 Ada 语 言 出 现 前 ， 人 允许 重 载 的 程序 设计 语言 通常 需要 使 用 自 变量 的 数目 和 类 型 (而 不 是 结果 类 型 ) 
来 做 重 载 解 析 。 这 是 FORTRAN、Pascal 和 C++ 中 规则 ， 即 只 允许 对 预定 义 的 运算 符 和 子 程序 进行 重 载 ， 
语言 Algol 68 也 一 样 ， 只 人 允许 某 些 用 户 定义 的 重 载 。 这 项 限制 的 主要 优点 是 ， 重 载 不 会 干扰 正常 的 自 底 
向 上 的 表达 式 翻 译 。 也 就 是 说 ， 我 们 仍然 可 以 编译 表达 式 ， 翻 译 其 中 的 操作 数 和 运算 符 而 不 必 关 心 该 表 
达 式 所 出 现 的 上 下 文 。 | 

不 幸 的 是 ， 如 果 使 用 了 强 类 型 检查 ， 那 么 自 底 向 上 的 重 载 解析 就 略 显 不 足 了 ， 因 为 类 型 转换 必须 通 
过 使 用 重 载 机 制 来 实现 。 例 如 ， 考 虑 A : = 1 + 1; ,假设 其 中 | 是 整 型 变量 。 如 果 A 是 浮 点 型 变量 ， 则 赋 
值 号 右边 的 表达 式 类 型 也 必须 是 浮 点 型 (为 避免 类 型 错误 )， 这 意味 着 + 所 表达 的 定义 的 解析 必须 由 表达 
式 及 其 操作 数 来 决定 。( 在 C 语 言 中 ， 转 换 规则 的 工作 方式 不 同 。 它 先 做 整数 算术 加 法 ， 然后 在 赋值 完成 
时 将 结果 转换 成 float 或 double。 这 里 重 载 的 是 赋值 运算 符 =， 而 不 是 加 法 运算 符 。) 

自 项 向 下 解析 算法 

在 一 个 普遍 采用 的 Ada 编 译 模型 中 ， 语 法 分 析 器 将 首先 建立 框架 式 的 树 结构 的 中 间 表 示 。 然后 语义 
例 程 所 产生 的 语义 信息 将 用 来 装饰 这 棵 树 ， 最 后 代码 生成 器 将 遍历 这 棵 树 并 产生 目标 代码 。 

以 下 由 Cormack (1981) 提出 的 自 顶 向 下 的 递归 例 程 采用 了 上 述 模型 ， 它 遍 历 表 达 式 树 并 计数 重 载 
符号 的 可 能 的 一 致 性 解释 。 如 果 它 返回 1 ， 则 该 树 设 有 二 义 性 ; 返回 0， 则 表示 没有 有 效 的 解释 ; 者 返回 
2 个 或 更 多 ， 则 表明 树 是 二 义 的 。 | 

int count(type *target type, tree node node) 

int solutions = 0, parm combos; 


if (node is a leaf) { 
if (node.type == target type 
return 1; . 
else 
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return 0; 
} 


/* node is an operator, or subprogram name */ 
for (each definition, node.def, associated with node) { 
if (node.def.result type == target type && 
node.def.arg count == 
number of subtrees of node) { 
/* 
* This definition is possible; 
* check the args, one by one. 
*/ 
para combos = 1; 
for (i = 1; i <= node.def.arg count; i++) ( 
parm combos += 
count (node.def.arg[i].type, node.son[i]); 


) 
solutions += parm combos; 
) 


) 
return solutions: 


) 

这 个 算法 将 过 程 当 作 函数 来 处 理 并 返回 特殊 类 型 Void。 很 容易 扩充 该 例 程 以 标记 所 发 现 的 第 一 个 带 
有 有 效 定义 的 内 部 结 点 。 如 果 返 回 计 数 为 1， 那 么 所 做 的 标记 是 惟一 的 ; 否则， 表达 式 有 错误 且 此 标记 
可 被 忽略 。 

自 底 向 上 解析 算法 

Cormack 的 算法 简单 有 效 。 但 表达 式 树 往往 是 采用 自 底 向 上 的 方式 建立 或 翻译 的 。 因 此 我 们 可 能 希 
望 用 自 底 向 上 的 算法 借助 于 自 变量 的 信息 来 解析 重 载 并 在 需要 时 利用 有 关 的 结果 信息 。 这 样 的 算法 已 由 
Baker (1982) 提出 。 他 得 出 了 两 项 关键 性 的 结论 : 

(1) 如 果子 表达 式 没 有 合法 的 解释 ， 那 么 包含 它 的 表达 式 也 没有 。 

(2) 如 果子 表达 式 有 不 止 一 种 的 解释 ， 每 一 种 解释 必须 在 子 表 达 式 的 结果 类 型 上 不 同 。 

这 些 结论 导致 的 自 底 向 上 的 算法 ， 在 必要 时 ， 将 建立 表达 式 树 的 列表 而 不 是 单独 的 一 棵 树 。 每 棵 树 
有 惟一 的 类 型 ， 用 来 限制 必须 维护 的 树 的 数量 。 在 树 出 现 的 上 下 文 变 得 明朗 时 ， 将 从 列表 中 剪除 掉 一 些 
树 。 最 后 ， 惟 一 的 一 棵 树 被 确定 下 来 ， 或 者 错误 被 发 现 (无 有 效 的 或 二 义 性 的 解释 )。 

例 程 build_ tree() (如 图 11-17 所 示 ) 将 被 渐 增 式 地 调用 以 建立 表达 式 树 。 该 例 程 将 可 能 重 载 的 
运算 符 或 子 程序 名 以 及 (将 被 建成 树 的 ) 自 变 量 表 作 为 它 的 参数 。 每 个 自 变 量 又 可 以 是 每 棵 子 树 有 惟一 
结果 类 型 的 子 树 列表 。 这 推广 了 通常 操作 数 均 是 惟一 子 树 的 建树 例 程 。 例 程 build_tree() 返 回 树 的 列 
表 ， 其 中 每 棵 树 均 有 惟一 的 结果 类 型 。 我 们 假设 有 例 程 select_tree() ， 它 以 树 列表 和 某 种 类 型 作 参 
数 ， 返 回 指针 指向 列表 中 具有 该 类 型 的 《惟一 的 ) 树 ， 或 者 由 于 不 存在 这 样 的 树 而 返回 NULL。 


tree list build tree(tree node node, 
T | list of tree list arg list) 


{ 
tree list result trees = { /* empty */ }; 


tree node *P; 
/* node is an operator, or subprogram name x/ 
for (each definition, node.def, associated with node) { 
if (node.def.arg count == length(arg list)) { 
/* This definition is possible; */ 
/* process the args, one by one */ 
/* Create a new tree node N, as follows: */ 
tree node N; 
N.def = node.def; 


11-17 建立 表达 式 树 的 重 载 解 析 算 法 
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N.type = node.def.result type: 
N.ambiguous = FALSE; 
/* 
* ambiguous is assigned TRUE if there is 
* more than one overload resolution that 
* returns N.type 
*/ 
for (i = 1; i <= node.def.arg count; i++) { 
P = select tree(arg list[i], 
node.def.arg[i].type): 
if (P == NULL) ( 
N.type = ERRORTYPE; 
/* loop */ 
) else 
N.son[i) = P; 
} 
if (N.type != ERRORTYPE) { 
tree t; 


if (select_tree(result_trees, N.type) == NULL) 
append(result trees, N); 

else { 
t = select tree(result trees, N.type): 
t-»ambiguous = TRUE; 

} 

} 
} 


for (i = length (result trees); i >= 1; i--) 
if (result trees[i].ambiguous) 
Remove result trees[i] from result trees; 


return result trees; 


} 





图 11-17 (£X) 


通过 调用 builq_tree() 处 理 每 一 个 子 表达 式 ， 我 们 可 以 按 自 底 向 上 的 方式 建立 表达 式 树 。 当 整 棵 
树 建 好 时 ， 我 们 将 调用 select_tree() 选 择 返回 所 期 望 类 型 的 惟一 的 表达 式 树 。 然 后 释放 那些 在 
arg_1ist 中 没有 被 select_tree() 选 中 的 子 树 ,这 是 因为 我 们 已 知 这 些 树 代 表 着 重 载 符号 的 无 效 解释 。 
如 果 将 枚 举 文字 常量 表示 为 无 参 函 数 ， 那 么 build_tree( ) 也 可 用 于 它们 的 重 载 。 ! 

为 弄 清 楚 build_tree( ) 是 如 何 工作 的 ， 可 以 考 虚 在 Ada/CS 中 建立 与 表达 式 I+J 对 应 的 树 (或 树 列 
X) 的 例子 。 参 数 node 是 运算 符 +， 它 有 以 下 2 个 与 之 关联 的 定义 : 


((float, float) — float) 
((integer, integer) — integer) 


如 果 我 们 是 在 编译 像 Pascal 那 样 允 许 混合 模式 的 表达 式 的 语言 ， 那 么 可 以 包括 额外 的 float 和 integer 参 数 
的 组 合 定义 。 参 数 arg_1list 是 tree_1list 的 列表 ， 该 列表 中 的 每 一 项 是 操作 数 (tree list) 可 能 的 
解释 列表 。 此 例 中 的 2 个 操作 数 都 是 简单 变量 ， 因 此 ， 每 个 tree_list 含 有 单独 的 一 棵 树 ， 且 是 平凡 的 ， 
仅 表示 变量 的 类 型 : 

arg_list: ( (integer), (integer) ) 
"build tree() 将 node 所 关联 的 定义 和 arg_list 做 比较 时 ， 只 有 第 二 种 定义 匹配 由 arg_list 提 供 的 
树 。 因 为 tJ 只 有 一 种 可 能 的 解释 ， 所 以 例 程 build_tree( ) 将 返回 仅 包含 一 个 元 素 的 tree_list。 

另 一 方面 ， 如 果 有 其 他 与 + 关联 的 定义 ， 例 如 : 


((integer, integer) — float) 


那么 它 也 将 匹配 arg_1ist 上 的 树 ， 此 时 例 程 baild tree() 将 返回 包含 2 个 选择 的 tree_list。 这 
两 棵 树 反映 出 在 那个 语言 中 允许 符号 + 用 于 两 个 整数 相 加 并 产生 一 个 整数 或 浮 点 数 的 事实 。 我 们 最 终 将 
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根据 使 用 表达 式 的 上 下 文 来 选择 其 中 的 一 棵 树 。 


练习 


l. 与 数据 对 象 的 符号 表 引 用 表示 法 相 比 ， 其 面向 地 址 的 表示 法 的 相对 优点 与 缺点 是 什么 ? 421) . 
2， 编 写 代码 实现 11.2.1 中 所 描述 的 new_nane ( ) 例 程 ， 说 明 如 何 利用 符号 表 中 的 信息 创建 表示 标识 符 的 1422 
DATAOBJECT 记 录 。 
3. 描述 由 11.2.2 节 中 的 语义 例 程 使 用 和 的 select _ unary operator() 和 
select binary operator(). 
4. 在 一 个 利用 free temporary() 进 行 显 式 临时 变量 释放 的 编译 器 中 ，11.2.2 节 里 的 例 程 
eval_unary() 和 eval_binary() 应 如 何 调用 此 例 程 ? | 
5， 针 对 以 下 声明 ， 为 下 面 的 每 条 Ada/CS 语 句 产 生 相 应 的 元 组 : 
1, J, K : integer; 
X, Y, Z : Float; 


(a) t:=-(J + 5); 
(D Ji=ba2—-J3*3+4+K/4; 
(9 X:=Y+*3.5+Z/ Floatil); 


6. 给 出 以 下 记录 声明 中 各 记录 域 的 偏 移 : 


|J Integer 


7， 给 出 在 处 理 图 11-5b 中 的 每 条 语句 时 所 产生 的 动作 例 程 的 调用 序列 ， 并 指出 每 一 例 程 所 生成 的 元 组 ， 
如 果 有 的 话 。 
8， 为 下 面 的 每 条 语句 产生 相应 的 元 组 ， 使 用 图 11-5a 中 的 声明 : 
(a) A1(5) := A1(l+J); 
(b) A2(ARecord.X, ARecord.Y) := J; 
(c) A1(A1(I).Y).X := J* 3; 
(d) A2(1,9) := A2(5,J); 
9、 使 用 在 11.2.4 节 中 讨论 的 动态 串 的 实现 方法 ， 找 述 实 现 串 比较 、 子 串 存 取 和 申 连 楼 所 需 的 运行 时 例 程 。 [423| 
10， 解 释 如 何 修改 在 图 11-7 中 为 访问 A(l,J,K) 所 生成 的 元 组 ， 如 果 所 有 关于 A 的 信息 是 从 一 个 像 图 11-8 中 
那样 的 内 情 向 量 中 访问 获得 的 (而 不 是 在 编译 时 可 用 的 )。 
11， 如 果 使 用 像 图 11-11 中 那样 的 运行 时 类 型 描述 符 实现 数组 ， 那 么 ， 
(a) 给 出 为 下 面 的 数组 声明 生成 的 类 型 描述 符 : 
type T is array (1..M) of array (2..N) of Float; 


(b) 如 果 A 和 B 在 声明 T 的 同一 个 过 程 中 声明 为 类 型 T， 斌 给 出 那个 过 程 的 活动 记录 ， 并 说 明 其 中 所 
有 与 A、B 和 T 相 关 的 对 象 。 
(c) 给 出 在 以 M = SAIN = 8 进入 此 过 程 后 ， 该 类 型 描述 符 的 示意 图 。 


(d) 为 下 面 的 语句 产生 元 组 : 
AlJ) := B(1,1) + B(.2): 
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2. 描述 为 A(1,J,K) 所 生成 的 元 组 ， 如 果 A 是 采用 图 11-12 中 说 明 的 向 量化 组 织 来 存储 的 。 
13. 采用 定义 在 图 11-15 中 的 类 型 描述 符 ， 为 表达 式 X(bD.C+X(b).E(J) 生 成 相应 的 元 组 。 
14， 给 定 以 下 声明 并 假定 ! 的 偏 移 是 5: 


| : Integer; 
R : record 
F1 : Integer; 
case T1 : Integer range 1..2 is 
when 1 => F2 : Integer; 
when 2 => case T2 : integer range 3..4 is 
when 3 => F3 : integer; 
when 4 => F4 : Integer; 


F5 : Integer; 
end case; 
end case; 
end record; 
那么 ， 将 为 以 下 语句 产生 什么 样 的 元 组 〈 包 括 变 体检 查 ) ? 
(a) | := R.F1; 


(b) R.F1 :z R.F2; 
(c) R.F4 := | + R.F5; 
15， 在 Pascal 程 序 中 声明 的 变 体 记 录 ， 如 果 它 覆盖 了 两 个 指向 不 同类 型 、 不 同 大 小 的 对 象 的 指针 ， 则 它 
可 以 使 我 们 在 11.3.4 节 中 介绍 的 检验 动态 对 象 指 针 有 效 性 的 技术 失效 。 例 如 : 
case T1 : boolean of 


True: (P1 : T array [1..10] integer;); 
False: (P2 : T array (1..100] Integer;); 


Fah STL AE Aas a bd P RUD RE T Eo EIR (T1)， 所 以 在 调用 new(P1) 以 及 将 T1 赋 值 
为 False 之 后 就 会 存在 某 种 不 安全 的 局 面 。 对 R.F21 [50] 的 引用 可 以 通过 变 体 的 检查 、 指 针 有 效 性 
检查 以 及 下 标 检查 ， 但 它 所 引用 的 堆 中 位 置 并 不 是 为 创建 该 指针 而 调用 new 所 分 配 的 。 解 释 如 何 扩 
展 指针 检查 机 制 以 便 在 这 种 情况 下 指示 错误 。 

16， 假 定 运 算 符 + 有 以 下 与 之 关联 的 定义 : 
((float, float) 一 float) 


((integer, integer) 一 integer) 
({integer, integer) — float) 


如 果 | 和 J 是 整数 且 F 是 浮 点 数 ， 说 明 如 何 使 用 图 11-17 中 的 例 程 build_tree( ) 来 解释 表达 式 I+J+F。 





第 12 章 翻译 控制 结构 


在 本 章 中 ， 我 们 研究 那些 能 确定 控制 流 的 Ada/CS 中 相关 语言 特性 的 实现 技术 。 这 些 控 制 结构 一 般 
可 以 代表 出 现在 现代 程序 设计 语言 中 的 各 种 控制 结构 。 我 们 要 考虑 的 语句 类 型 可 分 为 三 类 : 循环 结构 、 
条 件 执行 结构 和 直接 控制 转移 。 循 环 结构 包括 可 使 用 exit 语 句 在 任意 点 退出 的 简单 foop 语 句 以 及 通过 
for 和 while 子 句 控制 的 loop 语 句 的 特殊 实例 。 条 件 执行 结构 包括 普遍 使 用 的 ifthen-else 话 句 和 case 语 
句 。 最 后 ， 直 接 控制 转移 包括 上 面 提 到 的 exit 语 句 和 异常 。 我 们 还 要 讨论 在 许多 语言 中 都 有 的 goto 话 名 
的 编译 ， 尽 管 在 Ada/CS 中 没有 该 语句 。 


12.1 if jE4] 


Ada/CS 包 括 普遍 使 用 的 许 语句 ， 它 带 有 可 选 的 elsif 和 和 else 部分。 这 两 个 可 选 部 分 的 组 合 产 生 以 下 两 
种 一 般 的 形式 : 


if <boolean expr 1> then 
«stmt iist 1> 

elsif <boolean expr 2> then 
<stmt list 2> 


eisif <boolean expr N> then 
<Stmt list N> 
end if; 


if <boolean expr 1> then 
«stmt list 1> 

elsif <boolean expr 2> then 
<stmt list 2> 


elsif <boolean expr N> then 
<stmt list N> 

else <stmt list N+1> 

end if; 


如 果 没 有 elsif， 它 们 将 简化 为 在 包括 Pascal 的 大 多 数 语言 中 都 可 找到 的 基本 的 lf 语句 。Ada/CS 中 的 if 语 句 
同 Pascal 语 言 中 的 if 语句 的 重大 区 别 是 闭合 关键 字 end if 的 使 用 ， 这 不 仅 提 高 了 if 语 名 的 可 读 性 ， 同 时 也 
允许 在 if 语 句 的 每 个 选择 分 支 中 可 以 使 用 语 旬 列表 而 不 只 是 单个 的 语句 。 

为 话语 名 产生 的 元 组 格式 如 图 12-1 所 示 。 图 12-1 中 给 出 了 两 种 形式 ， 分 别 对 应 带 有 etse 子 句 和 不 带 
else 子 句 的 if 语句 。 和 以 往 一 样 ， 元 组 被 表示 成 括 在 括号 内 的 一 组 值 。 散 布 在 图 中 的 元 组 描述 了 那些 潜 
在 的 较 长 元 组 序列 。 这 些 描述 放 在 大 括号 中 ， 如 {...}。 在 此 例 和 本 章 其 他 示例 中 ， 某 些 元 组 前 被 冠 以 标 
号 。 在 第 7 章 定义 的 中 间 语 言 中 ， 不 允许 元 组 拥有 标号 ; 相反 ， 它 提供 了 特殊 的 标号 元 组 。 尽 管 本 章 中 
所 概述 的 语义 例 程 可 以 正确 地 在 相应 的 地 方 生成 标号 元 组 ， 但 在 这 个 例子 中 前 组 标号 的 使 用 只 是 为 了 增 
加 可 读 性 。 

目前 ， 我 们 沿用 处 理 表 达 式 的 一 般 惯例 。 在 分 析 <boolean expr> 时 调用 语义 例 程 生成 相关 代码 来 
计算 布尔 表达 式 的 值 为 True 或 False ， 并 且 产 生 可 描述 结果 的 DATAOBJECT 语 义 记录 。 在 12.7 节 中 ， 我 们 
将 研究 另 一 种 处 理 布尔 表达 式 的 方法 ， 它 生成 合适 的 控制 转移 而 不 是 显 式 的 布尔 值 。 
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{Evaluate <boolean expr 1>} 
(JUMPO, «boolean expr 1>, Else1) 
{ code for «stmt list 1» ) 
(JUMP, Out) 


Else: {Evaluate <boolean expr 2>} 
(JUMPO, <boolean expr 2>, Else2) 
{ code for «stmt list 2> } 
(JUMP, Out) 




















_ElseN—1: {Evaluate <boolean expr N>} 
(JUMP0, <boolean expr N>, Out) 
{ code for <stmt list N> } 


a) 不 带 else 部 分 的 if 语句 的 元 组 






{Evaluate <boolean expr 1>} 
(JUMPO, «boolean expr 1», Elset) 
{ code for «stmt list 1» ) 
(JUMP, Out) 


Else1: (Evaluate «boolean expr 2») 

(JUMPO, «boolean expr 2», Else2) 
( code for «stmt list 2> ) 

(JUMP, Out) | 






ElseN—1: {Evaluate <boolean expr N>} 
(JUMPO, «boolean expr N>, ElseN) 
{ code for <stmt list N> } 
(JUMP, Out) 


ElseN: { code for «stmt list N+1> } 
Out: tt 


b) 带 有 else 部 分 的 放 语 句 的 元 组 


图 12-1 带 有 和 不 带 有 else 部 分 的 if 语句 的 元 组 


我 们 需要 在 一 些 地 方 产生 代码 和 进行 语义 处 理 : 
。 在 每 个 布尔 表达 式 后 ， 需 要 根据 表达 式 的 值 生成 一 个 条 件 跳 转 。 
。 在 then 部 分 后 ， 如 果 有 相应 的 else 或 elsif 部 分 ， 则 需要 生成 跳 转 语句 跳 过 它们 。 
。 标 识 else 或 elsif 部 分 的 正确 标号 以 及 计 语 句 的 结尾 必须 由 构造 JUMP 元 组 的 动作 例 程 产生 。 相 应 的 
LABEL 元 组 必须 放 在 元 组 序列 中 正确 的 位 置 上 。 
这 些 考 虑 导致 以 下 的 语法 和 动作 符号 的 摆 放 : 
«if statement» — if #start_if «b expr> #if_test then «stmt list> 
( elsif #gen_jump #gen_else_label <b expr> #if_test 
then <stmts> } 
. «else part» end if ; #gen_out_label 
«eise part» — else ftgen jump fgen else label «stmt list» 
«else part» 一 itgen else label 


上 述 产生 式 中 指定 的 所 有 动作 例 程 都 生成 JUMP 或 LABEL 元 组 。 它们 用 来 相互 通信 的 新 的 语义 记录 
保存 着 标号 ， 时 闻 是 从 这 些 标号 被 创建 且 用 于 JUMP 元 组 一 直到 某 个 相应 的 LABEL 元 组 被 产生 为 止 。 假 
定 存在 某 个 名 为 new_Label( ) 的 支持 例 程 ， 它 在 每 次 被 调用 时 创建 一 个 惟一 的 标号 。 标 号 可 以 被 表示 成 
字符 串 ， 这 个 新 的 语义 记录 类 型 是 : 
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struct if stmt { 

，， string out label, next else label; 

动作 例 程 start_if( ) 构 造 IFSTMT 语 义 记 录 并 调用 new_label( ) 来 创建 一 个 可 作为 所 有 跳出 if 语 句 
的 跳 转 语 句 的 目标 标号 。( 这些 跳 转 语句 发 生 在 then 部 分 结尾 。) 这 个 新 标号 存放 在 IFSTMT 记 录 的 
out label 域 中 。next else _ label1 域 被 初始 化 为 空 种 ， 因 为 所 有 else 标 号 在 例 程 if_test() 中 创建 ， 
该 例 程 生 成 一 个 跳 过 其 后 then 部 分 的 条 件 跳 转 语句 : 

start if(void) => if 

if «- (if stmt) | 
out label = new label(); 


.next else label = " "; } 
) 
if test(if, <bexpr>) => if 
i 
Check that «bexpr».data object.object type == BOOLEAN 
if. if stmt.next else label = new '" label() 
»generate (JUMPO, «bexpr».data object, 
if.if stmt.next else label, ""); 
if — the updated IFSTMT record 
) 


如 果 有 else 或 elsif 部 分 跟 在 then 部 分 后 ，gen_jump( ) 例 程 被 调用 来 生成 跳 至 out_label 的 跳 转 : 
gen jump (f) 


generate(JUMP, if.if stmt.out label, "", ""); 
} 


gen_else_label() 用 if_test() 生 成 的 标号 来 标记 else 或 elsif 部 分 的 开始 ， 作 为 前 面条 件 跳 转 的 目标 : 
gen else_label (if) 
{ 


generate (LABEL, if.if stmt.next else label, "", ""); 
} 


在 处 理 完全 部 语句 后 ，gen_out_label() 为 start_if() 创 建 的 out_label 生 成 LABEL 元 组 : 
gen_out_label (if) 
{ 


generate (LABEL, if.if stmt.out label, "", ""); 


我 们 建议 读者 从 这 些 例 程 跟踪 一 些 if 语 句 例子 (从 简单 的 到 复杂 的 ) ， 来 验证 生成 的 代码 和 本 节 开 
头 的 例子 是 否 匹 配 。 尤 其 重要 的 是 ， 更 观察 在 处 理 计 语句 过 程 中 if .if_stmt .next else_label 的 值 是 
如 何 使 用 的 。 

在 本 节 中 ， 首 次 研究 了 可 能 供 套 其 他 语句 的 语句 。 话 语句 和 其 他 所 有 诸如 此 类 的 语句 ， 它 们 的 语义 
记录 完全 独立 于 它们 包含 的 语句 ， 因 此 ， 其 他 控制 结构 在 这 些 语 名 列表 中 的 出 现 不 会 带 来 任何 问题 。 

最 后 ， 考 虑 在 直接 生成 二 进 制 代 码 的 一 遍 编译 器 中 计 语 名 的 处 理 。 在 这 样 的 编译 器 中 ， 刚 才 提 出 的 
技术 不 能 工作 ， 因 为 它们 依赖 下 一 遍 编译 处 理 去 解析 符号 化 的 标号 引用 。 待 解决 的 基本 问题 是 当 JUMP 
和 JUMP0O 元 组 在 gen_jump() 和 if_test() 中 生成 的 时 候 ， 它 们 的 目标 位 置 尚 不 知晓 。 与 当 元 组 的 目标 
明确 时 保存 待 生 成 的 符号 化 标号 相反 ， 对 目标 不 明确 的 元 组 的 某 些 引用 (例如 序列 号 ) 必须 保存 在 
TFSmMT 记 录 中 。 在 发 现 合适 的 目标 元 组 序号 时 ， 将 其 值 作为 操作 数 填 人 那些 跳 转 元 组 。 这 种 处 理 过 程 
称 为 回填 (backpatching ) 。 

为 在 本 节 中 提出 的 语义 例 程 框架 内 实现 回填 ， 必 须 稍微 改动 IFSTMT 记 录 。 作 为 oat_label 域 的 蔡 
换 ， 该 记录 中 必须 包含 所 有 应 在 语句 结尾 处 回填 的 JUMP 元 组 的 列表 。 类 似 地 ， next else_label 域 
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Wilast else jump 域 所 取代 ， 后 者 保存 着 上 一 次 生成 的 JUMP0 元 组 的 序列 号 。gen_else_label1() 
动作 例 程 在 其 被 调用 时 必须 回填 那个 元 组 以 跳 至 下 一 个 可 用 元 组 号 。 在 12.7 节 中 ， 我 们 将 非常 详细 地 讨 
论 回 填 。 


12.2 循环 


循环 语句 的 翻译 相当 简单 。 在 关键 字 ioop 后 添加 动作 符号 #gen_loop_labei 以 便 在 循环 开始 的 地 方 
生成 一 个 LABEL 元 组 并 将 其 保存 在 语义 记录 中 。 这 个 标号 在 循环 结尾 被 语义 例 程 oopP_back() 用 来 生 
成 一 个 回 到 循环 上 部 的 跳 转 。 

涉及 的 产生 式 为 : 

«basic loop» — loop stgen loop label <stmts> end loop #loop_back 
需要 一 个 新 的 用 来 保存 单个 循环 标号 的 语义 记录 : 


struct label { 
string label; 

}; 

所 涉及 的 两 个 语义 例 程 相 当 简 单 : 

gen loop label (void) => loop 

{ 
L = new_label(); 
generate(LABEL, L, "", ""); 
loop — (label) ( .label = L; } 

) 


loop back (loop) 


{ 
generate(JUMP, loop.label.label, "", ""); 


} 
因此 ， 为 如 下 简单 循环 生成 的 元 组 


loop 
«statement list» 


end loop; 
具有 以 下 形式 : 
(LABEL, LoopStart) 


{ code.for «statement list» ) 
(JUMP, LoopStart) 


12.2.1 while 循环 


刚才 讨论 的 一 般 化 的 loop 语 句 从 不 终止 。 需要 用 exit 语 句 来 结束 循环 并 将 控制 转移 到 跟 在 loop 语 句 
后 的 下 一 条 语句 。while loop 是 loop 语 句 的 语法 扩展 ， 它 处 理 给 定 的 特殊 情况 : 在 循环 开始 的 地 方 测试 
人 退出 条 件 。 

while 语 句 的 语法 描述 是 : 


«while statement> — while #start_while <b expr> #while_test 
loop <stmts> end loop #finish_while 


”需要 一 个 新 的 语义 记录 ， 它 非常 像 IFSTMT 记 录 : 


struct while_stmt { 
string top_label, out_label; 
}; 
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start while() 和 while test() 很 像 我 们 已 经 看 过 的 gen loop label()#Mif test() 动 作 例 程 : 


start while(void) => while 
{ 
L = new label () 
generate (LABEL, L, "", ""); 
while — (while stmt) ( 
二 OP _. label = L; 
.out_label = ""; ) 
} 


while test (while, <bexpr>) => while 
{ 
Check that <b expr> data_object .object type == BOOLEAN 
while. while stmt .out_ label = new label (); 
generate (JUMPO, <b expr>.data_object, 
while.while stmt.out label, ""); 
while — the updated struct while stmt 
} 


finish while() 看 上 去 也 很 熟悉 ， 可 视 它 为 在 if 语句 结尾 和 简单 循环 结尾 时 调用 的 例 程 的 组 合 : 
finish_while (while) 
{ 
generate (JUMP, While.while stmt.top label, "", ""); 
generate(LABEL, while.while stmt.out label, "", ""); 
) 


因此 ， 为 如 下 while loop 生 成 的 元 组 
while <boolean expf> loop | 


«statement list» 
end loop; 


县 有 以 下 的 形式 : 


(LABEL, LoopStart) 
{ code for <boolean expr> ) 
(JUMPO, «boolean expr>, Out) 
( code for «statement list» ) 
(JUMP, LoopStart) 
(LABEL, Out) 


12.2.2 for 循环 


loop 语 句 的 另 一 个 特别 扩展 是 for loop， 用 于 计数 器 控制 的 语句 列表 的 重复 。Ada 和 Ada/CS 包 含 两 
种 格式 的 for loop: 
)“ 向 上 计数 ”循环 ， 其 中 索引 变量 以 升序 取 某 个 范围 内 的 所 有 值 : 


for <identifier> in <range> loop 
<statement list> 
end loop; 


2)“ 向 下 计数 ”循环 ， 其 中 索引 变量 以 降序 取 某 个 范围 内 的 所 有 值 : 


for <identifier> in reverse <range> loop 
«statement list» 
end loop; 


for ioop 的 编译 很 复杂 ， 因 为 必须 要 正确 地 处 理 很 多 细节 。 特 别 是 : 
。 当 进入 for loop 时 ， 必 须 为 循环 索引 创建 新 的 作用 域 和 数据 对 象 。 编译 器 必须 关注 循环 索引 创建 
以 及 可 用 的 准确 时 机 。 例 如 ， 以 下 循环 首部 的 含义 依赖 语言 定义 的 细 市 : 
for K in K ..1019op --- 


它 说 明 这 个 翻译 问题 不 是 惟一 针对 for loop 的 。 类 似 的 问题 出 现在 变量 声明 中 : 
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T:T; -— Assume a nonlocal type T exists 
Int : integer := 2*Int;  —— Assume a nonlocal integer int exists 


Ada 和 Ada/CS 通过 将 声明 划分 为 两 步 来 解决 这 个 问题 : 一 遇 到 一 个 标识 符 ， 这 个 标识 符 的 新 
声明 就 隐藏 (hide) 相同 标识 符 的 非 局 部 声明 。 然 而 ， 一 个 新 声明 仅 在 该 声明 完成 后 可 用 。 因 此 ， 
这 里 所 有 的 三 个 例子 都 是 非 靶 的 ， 因 为 非 局 部 的 标识 符 已 被 隐藏 起 来 而 局 部 的 再 声明 还 未 完成 。 
* 必须 将 in 或 in reverse 范 围 内 的 界限 值 存 于 临时 变量 中 ， 以 便 在 循环 中 始终 可 以 使 用 这 个 在 循环 
和 人 入口 计算 的 值 。 因 此 ， 以 下 循环 将 执行 10 次 : 

L := 10; 

for LoopVar in 1 .. L loop 

L := 3: 

end loop; 
。 循环 可 以 迭代 零 次 ;必须 生成 处 理 这 种 情况 的 合适 的 代码 。 
。 必 须 将 循环 索引 作为 只 读 值 加 以 保护 。 

在 以 下 for loop 的 语义 例 程 中 ， 我 们 将 循环 索引 放 在 临时 变量 中 ， 原 因 有 两 条 。 首 先 ， 该 方法 要 求 


仅 在 循环 范围 内 分 配 空 间 ; 动作 例 程 不 需要 决定 将 循环 索引 看 作 变 量 并 在 活动 记录 中 为 它 分 配 一 个 新 的 
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偏 移 。 这 一 步 是 一 种 代码 生成 的 决策 。 其 次 ， 被 分 配 的 临时 变量 经 常 是 一 个 寄存 器 ， 这 不 仅 节省 活动 记 
录 空 间 ， 而 且 可 能 改进 循环 中 代码 的 质量 。 

我 们 为 两 种 for loop 生 成 如 图 12-2 所 示 的 元 组 序列 。 这 些 代码 序列 可 能 看 起 来 有 些 令 人 费解 ， 因 为 
它们 中 的 每 一 个 都 包括 两 个 不 同 的 终止 测试 。 然 而 ， 如 果 和 迭代 的 上 界 是 给 定 机 器 上 所 能 表示 的 最 大 整数 ， 
则 这 种 代码 结构 是 必要 的 ， 因 为 它 确保 了 向 上 计数 的 for loop 正 确 终止 。( 类 似 的 问题 存在 于 下 界 和 向 
下 计数 循环 。 ) 一 个 更 显而易见 的 代码 序列 将 会 在 循环 底部 增值 素 引 变量 ， 然 后 跳 转 回 循环 上 部 以 测试 
新 值 是 否 大 于 上 界 。 该 方法 的 缺点 是 : 如 果 上 界 是 最 大 整数 的 话 ， 这 个 增值 可 能 在 最 后 的 测试 前 引起 上 
洲 。 在 像 Pascal 这 样 的 语言 中 ， 循 环 索 引 是 一 个 从 循环 外 可 见 的 变量 ， 此 时 ， 我 们 的 方法 另 有 目的 。 当 
索引 变量 是 子 界 类 型 并 且 循 环 迭 代 范 围 是 整个 子 界 范围 时 ， 图 12-2 中 的 代码 序列 能 确保 该 变量 绝 不 被 赋 
值 为 超出 范围 的 值 。 最 后 ， 全 局 优化 器 能 够 在 紧 挨 着 标号 Next 前 面 的 位 置 放置 循环 不 变 代码 ( 见 16.3.1 
45) 而 将 它 移出 循环 体 ， 并 保证 除非 循环 至 少 执行 一 次 ， 否 则 该 代码 将 永 不 运行 。 

for 语 句 带 有 动作 符号 的 产生 式 如 下 : 


«for statement» — for «id» #enter_for_id in «reverse option» «discrete range» 
ftinit loop loop <stmts> end loop; stfinish loop 

«reverse option» 一 ffset in 

«reverse option» — reverse físet reverse 


这 些 产生 式 中 指定 的 动作 例 程 需要 两 个 新 的 语义 记录 : 


struct reverse { 

boolean reverse flag; 
和 

struct for stmt { 
data object id; 
data object limit val; 
string next label, out label; 
boolean reverse flag; 


}; 
回想 第 10 章 中 的 <discrete range> 的 产生 式 ， 它 产生 一 个 实现 为 TYPEREF 语 义 记 录 的 子 类 型 引用 。 

前 三 个 语义 例 程 很 简单 。enter_for_id( ) 开始 循环 索引 标识 符 的 声明 ， 如 先前 所 讨论 的 ， 它 指出 
在 该 声明 完成 前 ， 该 变量 在 表达 式 中 不 可 用 。set_in() 和 set_reverse() 产 生 一 个 REVERSE 记 录 ， 这 
个 记录 能 指示 循环 是 向 上 还 是 向 下 计数 。 





enter for id(«id») 
( 
Open a new name scope 
Enter the identifier in the symbol table in the 
new scope with attributes indicating 
that it is "unavailable" 
) 
set in(void) => «reverse option» 
{ 
«reverse option» — (reverse) { 
.reverse flag = FALSE; } 
} 


set reverse (void) => «reverse option» 
{ 
«reverse option» — (reverse) { 
.reverse flag - TRUE; ) 


( compute LowerBound ) 

{ compute UpperBound } 
(GT, LowerBound, UpperBound, t1) 
(JUMP1, t1, Out) 

(ASSIGN, LowerBound, Index) 
(ASSIGN, UpperBound, Limit) 

{ code for <statement list> } 

(EQ, Index, Limit, t2) 
(JUMP!1, t2, Out) 
(ADDI, Index, 1, index) 

(JUMP, Next) 


a) 向 上 计数 loop 语 句 的 元 组 序列 


{ compute LowerBound } 

{ compute UpperBound } 
(GT, LowerBound, UpperBound, t1) 
(JUMP1, tt, Out) 
(ASSIGN, LowerBound, Limit) 
(ASSIGN, UpperBound, Index) 

( code for «statement list» } 

(EQ, Index, Limit, t2) 
(JUMP1, t2, Out) 
(SUBI, Index, 1, Index) 
(JUMP, Next) 


b) 向 下 计数 loop 语 句 的 元 组 序列 





图 12-2 向 上 计数 loop 语 句 的 元 组 序列 以 及 向 下 计数 loop 语 句 的 元 组 序列 


init loop() 生 成 直到 标号 Next 前 的 所 有 元 组 。 它 必须 注意 那些 列 出 的 细节 ， 这 包括 为 循环 索引 
和 界限 (如果 需要 的 话 ) 分 配 临 时 变量 。init_1loop() 构 造 一 个 FORSTMT 语 义 记录 以 提供 
finish loop() 所 需 的 信息 ， 以 便 它 在 循环 结尾 处 生成 必要 的 代码 。 以 下 例 程 上 咯 述 表明 ， 这 两 个 例 程 
完成 的 某 些 处 理 依赖 于 循环 的 方向 。 


init loop (<id>, <reverse option>, <discrete range>) => for 
{ 

data object upper, lower, init, limit; 

struct address T; 


Change the attributes of «id» in the symbol table to 
make it "available" 

Let loop info be a FORSTMT'*semantic record 

Allocate a temporary for use as the loop index, and 
create a data object record, loop info.id, for it. 
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loop_info.id.object type = 
<discrete range>.type_ref.object_type 

loop info.id.addr.read only = TRUE; 

Create data object records upper and lower describing 
the upper and lower bounds of the index range, 
based on the struct constraint des: 

«discrete range» .type ref.object , type.constraint 

T = get temporary () 

loop info.out label = new label(); 

generate (GT, lower, upper, T); 

generate(JUMPl, T, loop info.out label, ""); 

loop info.reverse flag - 

«reverse option». reverse.reverse flag 

if (loop info.reverse flag) ( 
init = upper 
limit = lower 

} else { 
init = lower 
limit = upper 

} 

generate (ASSIGN, loop info.id, INTEGERSIZE, init); 

if (limit does not describe a static value) { 

Allocate a temporary to hold the loop limit, 
and create a data object record, 
loop info.limit val, for it 
generate (ASSIGN, loop info.limit val, INTEGERSIZE, 
limit); 
) else 
loop info.limit val - limit 


Update the attributes of «id» in the symbol table 
to be consistent with loop info.id 
loop info.next label = new label() 
generate (LABEL, loop info.next label, "", ""); 
for — 1oop info 
) 


finish loop() 生 成 的 元 组 包括 终止 测试 、 索 引 变 量 增 值 以 及 跳 回 循环 体 代 码 上 部 。 该 例 程 必 须 
同时 关 闲 (close) 为 循环 索引 创建 的 新 的 符号 表 作 用 域 。 


finish loop (for) 
{ 
struct address T; 
T = get_temporary () 
generate (EQ, for. for stmt .id, for.for stmt.limit val, T): 
generate(JUMP1, T, for. for stmt.out - label, ""); 
if (for.for stmt . reverse _ flag) 
generate (SUBI, for.for stmt.id, 1, for.for stmt.id); 


else 

generate (ADDI, for.for stmt.id, 1, for.for stmt.id); 
generate (JUMP, for.for stmt. next label, "", ""); 
generate(LABEL, for. for | stmt .Out "label, "", ""); 


The temporaries for the loop index and limit value 
can be freed now (if the action routines 
explicitly free such temporaries) 

Terminate the current scope, discarding the symbol 
table entry for the loop index 

} 


for loop 优化 

通常 可 以 不 需要 分 析 控制 流 而 对 for loop 进 行 优 人 化。 例如， 循环 索引 变量 可 保存 在 寄存 器 中 ， 这 使 
得 引用 这 些 (经 常 在 循环 中 出 现 的 ) 变量 非常 快 。 这 种 技术 常常 工作 得 很 好 ， 但 在 某 些 情况 下 ， 它 却 使 
循环 的 执行 低 效 或 者 增加 了 编译 器 的 复杂 性 。 | 

因为 期 望 在 穿越 过 程 调用 时 仍 能 保留 其 值 的 寄存 器 必须 作为 调用 的 一 部 分 而 被 保存 和 恢复 ， 所 以 将 
索引 变量 放 在 寄存 器 中 要 求 在 循环 里 的 每 一 过 程 都 有 这 样 的 保存 和 恢复 。 因 此 ， 为 特定 循环 将 索引 变量 
保持 在 寄存 器 中 的 代价 依赖 于 循环 中 对 该 变量 的 引用 次 数 、 循 环 中 过 程 调用 的 次 数 、 保 存 寄存 器 引用 的 
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耗费 以 及 寄存 器 保存 和 恢复 的 耗费 。 

在 允许 从 循环 体外 部 引用 循环 索引 的 语言 中 ， 更 会 涉及 这 种 情况 。 当 从 for loop 中 退出 (即使 非 正 
常 退出 ) 时 ， 循 环 索 引 值 必 须 被 保存 到 与 索引 对 应 的 内 存单 元 中 ， 以 保证 退出 后 用 到 正确 的 值 。 在 循环 
里 ， 当 一 个 过 程 被 调用 时 ， 该 值 也 必须 被 保存 到 那个 单元 中 ， 以 便 在 循环 外 的 相应 的 过 程 体能 够 引用 当 
前 索引 值 。 例 如 ， 在 Pascal 语 言 中 ， 下 面 代码 是 合法 的 : 

procedure P; 


in 
writeln (1) 
end; 


for l in 1 to 10 do 
P; 


编译 器 可 以 满足 这 些 明显 的 需求 ， 方 法 是 : 如 果 循 环 索 引 被 存放 在 寄存 器 中 ， 则 编译 器 在 每 次 迭代 开始 
的 时 候 把 循环 索引 的 值 存储 到 相应 的 内 存单 元 中 。 尽 管 这 些 较 复杂 ， 但 实际 的 保存 使 得 循环 索引 在 局 部 
引用 时 可 用 ， 且 for loop 中 这 种 引用 的 频率 使 得 分 配 循环 索引 到 寄存 器 中 成 为 最 常见 的 优化 之 一 。 

在 UW-Pascal 编 译 器 中 ， 循 环 索引 寄存 器 不 作为 过 程 调用 的 一 部 分 而 被 保存 到 或 从 相应 存储 位 置 
(此 例 中 | 的 位 置 ) 中 恢复 。 相 反 地 ， 在 穿越 调用 时 ， 寄 存 器 的 内 容 将 被 保留 在 一 个 临时 存储 器 中 。 这 项 
策略 在 循环 仍 活跃 时 对 改变 循环 变量 值 的 (非法 ) 企图 有 着 有 趣 的 分 支 效应 (ramification). FR PH 
非法 的 Pascal 程 序 : 


program Prog ( Input , Output ) ; 
var 
| : Integer ; 
procedure P : 
begin 
t:=0; 
Writeln (1) ; 
end ; (P) 


in 
for i := 1 to 10 do 
begin 
P; 
Writeln ( 1) ; 


end 
end. 


编译 器 应 当 给 出 错误 信息 ， 但 编译 时 很 难 察觉 此 类 错误 。 刚 才 大 致 叙述 的 策略 导致 此 程序 打印 : 0 


10203...。 由 过 程 P 引 起 的 | 的 非法 修改 在 过 程 P 返 回 后 被 忽略 ， 因 为 存放 在 循环 寄存 器 中 的 | 值 被 用 
作 循环 索引 的 值 。 尽 管 对 循环 索引 的 非法 修改 未 被 发 现 ， 但 它们 在 返回 循环 体 后 即 被 抹 掉 。 这 种 结果 是 
在 寄存 器 中 保持 循环 索引 带 来 的 边缘 效益 。 | 

在 Ada 语 言 中 ， 循 环 索引 被 视 为 局 部 于 循环 体 的 有 名 常量 ( 即 ， 它 们 不 可 修改 ) ， 因 此 ， 也 就 和 前 
面 程序 没有 关联 。 所 以 说 ， 将 循环 索引 指派 到 寄存 器 既 简 单 又 有 效 。 

另 一 种 优化 是 可 能 的 ， 因 为 在 Pascal、Ada 和 Ada/CS 中 ，for loop 的 定义 使 得 循环 索引 的 范围 完全 受 
制 于 出 现在 循环 首部 中 的 初始 和 最 终 的 循环 界 值 。 如 果 这 些 界 值 是 常量 或 静态 约束 变量 ， 那 么 循环 索引 
可 被 视 为 循环 体 中 的 一 个 静态 约束 变量 。 此 观察 允许 我 们 去 除 许多 与 循环 索引 相关 联 的 子 界 或 下 标 检查 。 

例如 ， 给 定 以 下 程序 : | 

A : array(1..10) of range 1..10; 

fori 1 .. 10 loop 


- 
. 1 


存 循环 体 中 不 需要 子 界 或 下 标 检查 。 这 种 优化 很 容易 实现 并 可 以 极 大 提高 loop 语 句 代码 的 质量 。 
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12.3 编译 exXxit 语 名 


exit 语 句 是 一 种 跳出 循环 的 结构 化 方式 。 有 两 种 形式 的 退出 必须 处 理 : 无 条 件 的 退出 和 有 条 件 的 
退出 。exit 语 名 的 设计 减少 了 前 向 引用 人 问题， 因为 在 exit 中 被 引用 的 标号 总 是 在 它们 被 使 用 之 前 定义 。 
然而 ，exit 所 暗示 的 跳 转 目标 仍然 是 一 个 未 知 的 地 方 。 我 们 需要 考虑 两 个 问题 : 

。exit 可 以 引用 显 式 的 循环 名 ， 也 可 以 隐 式 地 引用 包含 它 的 最 内 层 的 循环 。 

。 由 exit 显 式 或 者 隐 式 引用 的 循环 必须 在 包围 exit 的 最 小 的 外 围 包 或 子 程序 中 。 

在 编译 过 程 中 的 任 一 点 ， 我 们 有 一 系列 人 嵌 套 的 、 开 放 的 〈 即 ， 没 有 完全 翻译 的 ) 循环 。 为 处 理 这 个 
翻译 问题 ， 我 们 为 每 一 个 循环 创建 一 个 编译 时 牢 环 描述 符 (loop descriptor)。 这 个 描述 符 包括 一 个 指针 
指向 直接 外 转 / 外 层 循 环 的 描述 符 。 可 以 被 不 含 循环 名 的 exii 语 句 隐 式 引 用 的 最 内 层 循环 将 由 一 个 称 为 
current loop 的 变量 指向 ,该 变量 初始 为 NULL。 因 此 ，current_loop 和 循环 描述 符 的 链接 表 定 义 与 
所 有 开放 循环 相对 应 的 记录 栈 。 这 个 栈 可 以 被 单独 维护 ， 也 可 以 被 符 入 到 语义 栈 中 。 本 节 中 动作 例 程 的 
概括 叙述 足够 全 面 可 以 处 理 每 一 种 选择 。 

循环 描述 符 具有 如 图 12-3 所 示 的 格式 。 在 描述 符 内 ，1label_entry 指 向 循环 标号 的 符号 表 条 目 ; 对 
没有 标号 的 循环 ， 则 它 为 NUOLE 。exit_Labe1 是 用 
作 exit 跳 转 目标 的 符号 化 标号 。containing_ loop 
引用 我 们 刚 讨论 过 的 直接 外 围 循环 (如果 有 的 话 )。 
contain- ing proc 和 containing package3| 
用 直接 外 围 过 程 和 包 的 attributes 描 述 符 。 以 上 containing package 
这 些 是 用 来 检查 exit 的 有 效 性 ， 确 信 它 没有 指定 就 图 12-3 翻译 exit 所 需 的 循环 描述 符 
出 过 程 或 包 的 跳 转 。 

产生 exit 语 句 并 带 有 语义 动作 的 产生 式 如 下 : 

«exit statement» — exit «name option» «when option> ; 

«name option» 一 «name» siprocess name 

«name option» 一 iinull! name 


«when option» — when «b expr> #exit_cond 
<when option> 一 #exit_jump 


处 理 exit 所 需 的 语义 记录 是 : 


typedef struct loop des { 
id entry *label entry; 














string exit label: 

struct loop des *containing loop; 

attributes *containing proc, *containing package; 
) loop descriptor; 


struct loop ref ( 
loop descriptor *descriptor ref; 
}; 


为 了 处 理 exit 语 句 ， 必 须 在 循环 分 析 开 始 时 执行 的 语义 例 程 中 做 如 下 添加 。 必 须 创 建 
LOOPDESCRIPTOR 记 录 ， 并 在 实现 循环 的 语义 例 程 使 用 它们 前 将 它们 压 入 到 单独 的 loop_qdescriptor 栈 
或 语义 栈 上 。 设置 exit_label 为 新 生成 的 标号 以 提供 循环 中 任意 exit 的 跳 转 目标 。 而 containing_loop、 
containing proc 和 containing _package 将 被 分 别 赋值 为 变量 current_loop、 current proc 和 和 
current package 的 值 。current_loop 接 着 被 赋值 为 一 个 指针 ， 指向 这 个 新 创建 的 描述 符 。 如 果 正 处 
理 一 个 带 标 号 的 循环 ， 则 将 为 该 标号 创建 一 个 符号 表 条 目 。 与 这 个 标号 对 应 的 ATTRIBUTES 记 录 含 有 指 回 
相应 描述 符 的 指针 。 描 述 符 记录 中 的 label_entry 域 被 置 为 da_entry， 它 是 为 这 个 标号 调用 enter() 的 
返回 值 。 如 果 循 环 是 未 标号 的 ， 则 label_entry 被 置 为 NULL。 





由 于 使 用 符号 化 标号 作为 跳 转 目标 在 一 遍 编译 器 中 是 不 可 能 的 ， 因 此 就 需要 某 些 回 填 跳 转 地 址 的 技 
术 。 所 使 用 的 任何 技术 必须 处 理 循 环 中 任意 数量 的 exit， 而 不 只 是 单个 的 exit。 可 以 使 用 以 下 三 种 方法 
来 解析 跳 转 目标 的 地 址 : 

(1) 间接 跳 转 (Indirect Jump): 在 遇 到 exit 时 ， 从 常量 区 中 分 配 一 个 位 置 ， 存 储 它 的 地 址 到 描述 符 
记录 的 exit_address 域 (用 来 末代 exit_label) 中 ， 并 生成 到 这 个 位 置 的 跳 转 。 对 有 条 件 的 exit 语 
句 ， 生 成 的 是 条 件 跳 转 。 当 循环 分 析 结 束 时 ， 在 常量 区 中 那个 分 配 的 位 置 上 生成 到 已 知 的 目标 地 址 的 跳 
转 。 因 此 ，、exit 语 句 执行 了 间接 跳 转 ( 跳 转 到 一 个 跳 转 指令 )。 

(2) 链 式 引用 (Chaining Reference): 此 外 ， 还 可 以 为 每 个 exit 语 句 生 成 形 如 (JUMP,Target?) 的 
跳 转 ， 其 中 ? 表示 未 知 的 地 址 。 将 它们 在 一 个 链接 表 上 链接 在 一 起 ， 在 这 种 情况 下， 链接 表 头 存放 在 描 
述 符 记录 中 的 第 二 个 域 ， 我 们 称 其 为 exit_1list。 这 个 链表 中 包含 所 有 Target? 待 填写 的 跳 转 元 组 地 址 。 
一 旦 编译 器 到 达 循 环 结尾 且 目 标 地 址 明确 ， 就 将 遍历 该 链表 并 填写 Target?。 

(3) 直接 -间接 (Direct-indirect): 间接 跳 转 方法 的 一 种 变形 是 : 在 和 第 一 个 过 到 的 exit 语 句 对 应 的 
位 置 上 (不 是 在 常量 区 中 ) 生成 跳 转 指令 。 然 后 所 有 后 继 exit 都 跳 至 这 第 一 个 位 置 。 这 个 技巧 在 常量 区 
中 节省 了 一 个 字 空 间 ， 并 保证 被 处 理 的 第 一 个 ( 且 可 能 是 惟一 一 个 ) exit 是 直接 跳 转 而 非 间 接 跳 转 。 

第 二 种 选择 ( 链 式 引用 ) 需要 更 精巧 的 链接 式 数 据 结构 ， 但 相 比 其 他 技术 ， 它 生成 执行 稍 快 的 代码 。 
这 种 选择 和 第 三 种 方法 都 比 间接 跳 转 (第 一 种 选择 ) 少 需要 一 条 指令 。 若 编译 器 的 简单 性 是 最 重要 的 ， 
那 我 们 或 许可 以 使 用 直接 -间接 方法 ， 因 为 在 最 常见 的 情况 下 ， 它 生成 的 代码 的 性 能 与 链 式 引用 方法 相 
当 ， 而 同时 它 却 使 用 着 简单 的 数据 结构 。 而 且 ， 一 个 能 够 消除 跳 转 链 的 优化 器 或 许 会 将 间接 跳 转 变 为 直 
接 跳 转 。 在 以 下 语义 例 程 的 概述 中 ， 我 们 将 讨论 用 作 一 遍 目 标 地 址 解决 方案 的 符号 化 标号 和 链 式 引 用 。 
其 他 一 遍 方案 的 实现 很 简单 ， 读 者 可 以 很 容易 地 开发 它们 。 

process_name( ) 和 null name( ) 语 义 例 程 找 到 针对 特定 循环 的 LOOPDESCRIPTOR 记 录 ， 检 查 exit 
语句 的 合法 性 ， 然 后 产生 LOOPREF 语 义 记 录 以 提供 对 那个 描述 符 记录 的 直接 访问 。 这 个 struct 
loop ref 是 例 程 exit_jump() 或 exit_cond( ) 的 输入 参数 ， 这 些 例 程 被 调用 来 完成 exit 语 句 的 翻译 。 


process name (<name>) => <name option> 


<name> should be represented by an ATTRIBUTES 
semantic record 

If it is not so represented or if it is not a loop 
name or if it is a loop name with a null 
descriptor pointer, the exit is illegal. 

Otherwise, use the descriptor pointer to access the 
corresponding LOOPDESCRIPTOR record. 

Check that the containing proc and containing package 
fields in this record match the values of 
current proc and current package 

If either does not match, the exit is illegal, 
because the exit would cause a jump out 
of a subprogram or package. 

If the exit is legal, 

«name option» <— (loop ref) { 
.descriptor ref = pointer to the 
descriptor record for the 
loop being exited; ) 
If the exit is not legal, 
«name option» < an ERROR record 
} 
null name(void) => «name option» 
í Examine the LOOPDESCRIPTOR record referenced by 
current loop 

If it is NULL or if the containing proc and 
containing package fields in this record do not 
match the values of current proc and 
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current_package, then the exit is illegal and 
«name option» — an ERROR record 
If the exit is legal, 
«name option» + (loop ref) { 
.descriptor ref = current loop; } 


exit jump («name option») 
{ 
If symbolic exit labels are being used, 
Let L be the label found in the LOOPDESCRIPTOR 
record referenced by 
«name option».loop ref.descriptor ref 
generate(JUMP, L, "", "") 
If one-pass target resolution is being used, 
generate(JUMP, Target?, "", "") 
Chain the address of this JUMP tuple onto the 
exit list of the descriptor record referenced 
by «name option».loop ref.descriptor ref 


exit cond(«name option», «b expr>) 


{ 
Generate a JUMP1 tuple to exit the loop if the 
boolean expression is True 
The address of the jump target is handled exactly 
like that in the exit_jump() routine 
} 


当 循 环 分 析 结束 时 ， 在 loop_descriptor 栈 或 语义 栈 中 ， 在 任何 其 他 用 来 实现 循环 的 语义 记录 的 
下 面 ， 我 们 找到 相应 的 LooPDESCRIPTOR 记 录 。 如 果 正 在 使 用 一 遍 目标 解决 方案 ， 则 所 有 通过 
exit 1list 域 链接 的 元 组 地 址 将 被 填补 上 到 next_tuple_number 的 跳 转 。 如 果 使 用 了 符号 化 标号 ， 则 
此 时 必须 生成 一 个 用 于 循环 的 包含 exit_label 的 LABEL 元 组 。 如 果 label_entry 不 是 NULL ， 则 我 们 用 
它 来 引用 循环 的 符号 表 条 昌 ， 并 置 描述 符 记录 指针 为 NULL。 这 一 步 是 必 不 可 少 的 ， 因 为 循环 名 字 的 作用 
域 就 是 包含 它 的 块 、 子 程序 或 包 。 尽 管 该 名 字 在 包含 它 的 单元 中 随处 可 见 ， 但 使 用 循环 名 字 的 exit 语 名 
不 可 以 在 循环 体外 出 现 。 接 着 ， 从 栈 中 弹出 LOOPDESCRIPTOR 记 录 ， 因 为 该 循环 现在 已 全 部 编译 完毕 。 


12.4 case 语 侣 


Ada 和 Ada/CS 中 有 两 种 形式 的 case 语 人 句 : 


case <expr> js 


when «choice» | --- | «choice» => <stmts> ; 
when «choice» | .… | «choice» => <stmts> ; 

end case; 

和 

case <expr> is 
when «choice» | --- | «choice» => <stmts> ; 
when «choice» | :… [| «choice» => «stmts» ; 
when others => <stmts> ; 

end case; 


它们 的 区 别 仅 在 于 是 否 包括 others 选 择 。 

每 个 <choice> 可 以 是 常量 表达 式 、 上 下 界 均 为 常量 表达 式 的 范围 对 或 者 其 约束 为 常量 表达 式 的 子 
类 型 名 。 

Ada 和 Ada/CS 要 求 case 索 引 的 所 有 可 能 值 可 被 某 个 when 子 句 的 选择 所 包含 。 如 果 others 是 最 后 的 





选择 ， 它 将 无 疑 满足 条 件 。 如 果 others 未 使 用 ， 那 么 估算 可 能 的 case 索 引 值 范 围 也 许 比较 困难 。 对 于 
一 个 为 简单 变量 的 索引 来 说 ， 其 约束 界限 (如 果 它 们 是 常量 ) 可 以 从 该 变量 的 类 型 信息 中 获取 。 否 则 ， 
将 使 用 其 底层 的 基 类 型 。 对 于 一 个 为 表达 式 的 case 索 引 来 说 ， 即 使 表达 式 的 操作 数 是 约束 的 ， 也 将 难以 
抽取 其 界限 。 在 这 种 情况 下 ， 多 数 编译 器 假设 使 用 基 类 型 的 全 范围 值 。Ada 和 Ada/CS 允 许 表达 式 是 限制 
éj (qualified), {EHF TypeOrSubTypeName' (<expr>)， 其 中 ， 类 型 或 子 类 型 的 上 下 界 将 限制 表达 
式 采 用 的 值 的 范围 。( 这 种 限制 将 导致 运行 时 检查 ， 可 能 会 引起 一 个 Constraint_Error 异 常 .) 如 果 case 
索引 不 是 限制 的 ， 那 么 一 般 情 况 下 需要 一 个 others 子 句 。 

通常 ，case 语 句 的 实现 选择 合适 的 使 用 跳 转 表 (jump table) 或 搜索 表 (search table) 的 方法 。 我 
们 生成 的 代码 使 用 了 跳 转 表 ， 这 可 能 是 最 常见 的 方法 了。 该 方法 的 优势 在 于 : 它 比 搜索 表 的 执行 效率 更 
高 ， 尽 管 它 不 像 搜 索 表 方 法 那样 通用 (因为 其 大 小 必须 受 某 种 限制 )。 在 稍 后 概述 的 语义 例 程 之 后 还 有 
更 多 搜索 表 的 讨论 。 使 用 跳 转 表 生成 的 通用 元 组 形式 如 图 12-4 所 示 。 


{Evaluate <expr>} 
(LT, <expr>, MinChoice, t1) 
(JUMP1, t1, Others) 
(GT, <expr>, MaxChoice, t2) 
(JUMP1, t2, Others) 
(JUMPX, <expr>, Table-MinChoice) 

. ( code for «statement list 15 } 

(JUMP, Out) 


( code for «statement list N» ) 
(JUMP, Out) 
( code for «statement list» in others clause } 
(JUMP, Out) 
—— if no others clause is present, delete the preceding two lines. 
(JUMP, L1) or (JUMP, Others) 


(JUMP, LN) or (JUMP, Others) 





图 12-4 _ Case 语句 的 元 组 序列 


图 中 的 代码 框架 里 引入 了 一 个 新 的 元 组 形式 。 
(JUMPX, ARG1, ARG2) Indexed jump: Add the contents of the location 


specified by ARG1 to the tuple address specified 
by ARG2 and jump to that location 


在 代码 框架 里 的 JUMPX 元 组 中 ，ARG2 的 元 组 地 址 由 一 个 标号 表达 式 来 指定 ， 其 形式 为 : 元 组 标号 
(Table) 减 去 一 个 编译 时 常量 (MinChoice). 
一 个 插入 了 语义 动作 记号 的 case 语 名 文法 如 下 : 


«case statement>  — case <expr> #start_case is <when list> 
«others option» end case; #finish_case 


«when list» 一 (when «choice list» => <stmts> iffinish choice ) 
«others option» —, when others #start_others => <stmts> #finish_choice 
<others option> — dino others 

«choice list» — «choice» {| «choice» ) 

«choice» — «expr» £append val or subtype 

«choice» — «expr» .. <expr> #append_range 


其 中 ， 动 作 例 程 所 需 的 两 个 语义 记录 是 : 


struct case_rec { 
struct type ref index type: 
list of choice choice list; 
/* address of the JUMPX tuple */ 
tuple index jump tuple; 
/* target of branches out */ 
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string out label; 
/* label of the code for others clause */ 
string others label: 

}; 


和 


struct choice { 
long lower bnd, upper bnd; 
string start label; 

}; 


调用 start_case( ) 语 义 例 程 来 开始 case 语 句 的 处 理 。 该 例 程 生 成 显示 在 图 12-4 中 自 JUMPX 起 的 
元 组 。 其 中 的 若干 元 组 依赖 一 个 在 case 语 名 开始 处 尚 不 可 用 的 值 ， 因 此 在 一 遍 编 译 器 中 它们 必须 加 以 回 
填 。 这 个 未 知 值 将 在 下 面 的 语义 例 程 概述 中 用 ? 标记 为 后 缀 形式 。start_case( ) 同 时 创建 和 该 语句 对 
应 的 CASEREC 语 义 记录 。 


start case (<Gxpf>)》 => Case 
{ 
Test that <expr>’s type is an enumeration or 
subtype of Integer 
OthersL = new label (): 
Generate the following tuples: 
(LT, <expr>, MinChoice?, t1) 
(JUMP1, tl, OthersL) 
(GT, <expr>, MaxChoice?, t2) 
{JUMP1, t2, OthersL) 
(JUMPX, <expr>, TableLabel?-MinChoice?) 
Let A = next tuple number 一 1; 
/* A is address of the JUMPX tuple */ 
case — (case rec) { 
.index type = <expr>.data object.object type; 
.choice list - NULL; 
.jump tuple = A; 
‘out label = new label(): 
.others label = OthersL; } 
) 


例 程 append_var_or_subtype( ) 和 append_range( ) 处 理 那 些 标 记 case 语 句 中 “选择 ”的 第 量 、 
范围 和 子 类 型 名 字 。 它 们 中 的 每 一 个 都 为 这 些 标签 创建 描述 符 并 将 之 添加 到 CASEREC 记 录 里 的 


choice 1ist 中 。 


append val or subtype(Case, <expr>) => case 


* <expr> may be an enumeration-valued constant 

* expression or a name that is a subtype with 

* constant constraints. We assume all constant 
* expressions are folded. 


Check that <expf> is a constant enumeration value or 
the name of an enumeration type or subtype with 
constant constraints 

Create a new struct choice, C 


if («expr» is a DATAOBJECT record) { 
Check that <expr>.data_ object.object type == 
case.case rec.index type 
/* 
* A single value in a <choicelist> is treated as 
* a range with equal lower and upper bounds 
*/ 
C.lower bnd = <expr>.data_object .value.int value 
C.upper bnd = <expr>.data_object .value.int_value 
} else { /* <expr> must be a type or subtype */ 
Check that <expr>.type ref.object type == 
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case.case rec.index type 
C.lower bnd = 
<expr>.type ref.object type.constraint.lower bound 
C.upper bnd = ~ 
«expr».type ref.object type.constraint.upper bound 
一 


C.start label = new label() 

generate (LABEL, C.start label, "no o"); 
Append C onto CáSe.case rec.choice list 
case — the updated struct case rec 


append range(Case, «expr,», «expr») => case 
{ 
Let lower bound rename «expr;».data object 
Let upper bound rename «expr;».data object 
Check that lower bound and upper bound are constant 
enumeration values 
Check that lower bound.object type == 
case.case rec.index type 
Check that upper bound.object type == 
case.case rec.index type 
Create a new struct choice, C 
/* We assume all constant expressions are folded */ 
C.lower bnd = lower bound.value.int value 
C.upper bnd = upper bound.value.int value 
if (C.lower bnd » C.upper bnd) 
/* We have a null range */ 
Issue a warning message 
else { | 
C.start label = new label() 
generate (LABEL, C.start label, we on"); 
Append C onto case.case rec.choice list 
caso — the updated struct case rec 


} 
) 


finish choice( ) 在 每 个 选择 分 支 尾部 生成 跳出 case 语 句 所 必需 的 跳 转 。 start others() fll 
no_others() 是 可 选 的 例 程 ， 我 们 用 其 中 的 某 一 个 来 处 理 特定 的 case 语 铝 ， 这 取决 于 由 others 标 识 的 
选择 是 否 存 在 。no_others( ) 设置 CASEREC 记 录 中 others _ label 域 为 空 串 以 通知 finish_case() 


例 程 该 语句 中 没有 包含 others 部 分 。 


finish_choice (Case) 


{ 
generate (JUMP, case.case_rec.out label, "u 


, uu); 
) 


start others (case) 
{ 


nH "un" . 
, ); 


generate (LABEL, case.case rec.others label, 
} 
no others (case) z» case 


i 
case + case.case rec with others label 


set to "" (a null label) 
) 
动作 例 程 finish_case()， 见 图 12-5， 将 在 case 语 句 的 最 后 结尾 处 被 调用 。 它 处 理 choice_list 
以 创建 跳 转 表 并 检查 索引 表达 式 的 所 有 可 能 值 是 否 恰好 选择 一 个 分 支 。 它 回填 在 语句 开始 处 的 元 组 中 必 
EHR, Hout _label 生 成 LABEL 元 组 ， 这 是 所 有 退出 跳 转 的 目标 地 址 。 
如 果 范 围 min_choice .. max._choice 被 选择 值 密集 地 和 覆盖， 则 用 跳 转 表 方法 翻译 case 语 句 会 来 得 
简单 且 迅 速 。 如 果 和 覆盖 不 是 非常 密集 ， 那么 跳 转 表 也 许 会 非常 浪费 空间 ， 甚 至 可 能 超出 存储 容量 。 
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尽管 某 些 编译 器 不 担心 这 种 意外 会 发 生 ， 但 可 能 的 话 ， 最 好 还 是 生成 某 种 搜索 表 而 不 是 跳 转 表 。 例 


如 ， 可 以 生成 : 


#12 È 


finish_case (case) 


{ 


Let CR rename case.case rec. 


min possible = CR.index type.constraint.lower bound 
max possible = CR.index type.constraint.upper bound 
choice list - CR.choice list 


Sort choice list into ascending order based on values 
of lower bnd 
Check that there is no overlap among choices (and 
ranges) by traversing the sorted list, and 
checking that choice list[i].upper bnd « 
choice list[i*1].lower bnd 
Set min choice to be choice list[first].lower bnd 
Set max choice to be choice list(last].upper bnd 
if (min choice « min possible || 
max choice » max possible) 
Issue a warning about unreachable choices 
if (case.case rec.others label == "") { 
/* No others clause */ 
if (min choice > min possible || 
max choice « max possible) 
Issue an error because of index values not 
covered by any when clause 
Check that there is no gap among choices (and 
ranges) by traversing the sorted list, and 
checking that choice list[i].upper bnd41 == 
choice list[i*1)].lower bnd 
} 


Let table = next tuple number++: 

Let T = CR.jump tuple 

/* 

* At the beginning of the Case statement, 

* we generated these tuples: 

* (LT, <expr>, min choice?, t1) 

* (JUMP1, tl, others 1) 

* (GT, <expr>, max choice?, t2) 

* (JUMP1, t2, others 1) 

* (JUMPX, <expr>, table label?-min choice?) 
* where T is the tuple number of the JUMPX tuple 
*/ 


if (Case.case rec.others label == "") 

The first four of these tuples can be deleted 
(since a compile-time range check has been 
performed) 

else { 


Backpatch tuplefTl .ARG3 with table-min choice 
Backpatch tuple[T-2].ARG2 with max choice 
Backpatch tuple[T-4].ARG2 with min choice 


for (i = min choice; i <= max choice; itt) { 


Let C be the first struct choice on choice list 
if (C.lower bnd <= i && i <= C.upper bnd) 


generate(JUMP, C.start label, "", ""); 
else 
generate (JUMP, case.case_rec.others label, "", ""); 


if (i == C.upper bnd) 
Remove C from choice list 


) 
generate (LABEL, case.case rec.out label, "", my; 


图 12-5 动作 例 程 finish_case() 的 概述 





(JUMP, Search) 
{ code for all the cases } 
Table: (ChoiceValue, Address) 


(ChoiceValue, Address) 
(一 ,OthersAddress) 

Search: { code to search the table and jump to the appropriate address } 

可 以 线形 地 搜索 Table ( 例如， 使 用 硬件 搜索 指令 ) ， 或 基于 ChoiceValue 对 其 排序 并 用 二 分 搜索 法 进行 
搜索 。 甚 至 可 能 使 用 基于 ChoiceValue 的 哈 希 方案 。 

如 果 (max_choice - min. choice) < 10 ， 或 如 果 50% 或 更 多 可 能 的 选择 标号 在 范围 min_choice .. 
max_choice 中 出 现 ， 则 UW-Pascal 编 译 器 生成 跳 转 表 。 否 则 ， 它 生成 搜索 表 并 使 用 硬件 搜索 指令 执行 线 
性 搜索 。 | 

UNIX C 编 译 器 和 Wisconsin UNIX Pascal 编 译 器 ( 均 在 VAX 机 器 上 运行 ) 在 以 下 三 种 方法 中 做 选择 。 
如 果 有 多 于 三 个 的 选择 分 支 且 履 盖 了 3/4 以 上 范围 ， 则 使 用 前 面 找 述 过 的 跳 转 表 。(VAX 机 器 有 一 条 指令 
可 以 合并 范围 检查 和 变 址 跳 转 。) 否则 ， 如 果 多 于 8 个 选择 分 支 ， 它 将 生成 代码 在 选择 分 支 表 上 执行 内 联 
的 二 分 搜索 。 因 为 分 支 选 择 的 值 集 合 是 固定 的 且 在 编译 时 已 知 ， 所 以 可 以 编写 不 带 循 环 的 二 分 搜索 代码 。 
例如 ， 如 果 有 2n 个 选择 分 支 ， 且 valr 表 示 第 n 个 分 支 的 值 ， 则 可 能 生成 的 代码 如 下 : 

(GT, expr, valn, t1) 
(JUMP1, t1, SearchUpper, ) 
(GT, expr, vals», t2) 
(JUMP1, t2, SearchUpperz) 
{ code to search among cases 1..n/2 } 
SearchUpper; : { code to search among cases n/2+1..n } 
SearchUpper,: (GT, expr, valsn/z, t3) 
(JUMP1, t3, SearchUpper;) 


( code to search among cases n+1..3n/2 } 
SearchUpper,: {code to search among cases 3n/2+1..2n ) 


此 方法 为 每 个 分 支 生成 两 条 指令 ， 但 其 中 只 有 log(m) 实 际 执行 ， 这 里 n 为 分 支 数量 。 最 后 ， 如 采 没 
有 一 个 条 件 成 立 ， 则 将 直接 执行 线性 搜索 。 
可 以 合并 上 述 三 种 方法 以 创建 一 种 如 下 面 伪 代 码 所 描述 的 混合 方法 : 


if (size of choice range < minimum) 
generate a linear search 

else if (choices are dense enough) 
generate code for a jump table 

else { 
generate code to divide the range in half (as for 
binary search) and then recursively apply this 
algorithm to generate a search of each of the 
halves of the range 


} 


12.5 编译 goto 语 铝 


即使 在 Ada/CS 中 没有 goto 语 句 ， 我 们 还 是 打算 讨论 它 ， 因 为 在 每 一 种 实际 的 主要 语言 中 都 有 goto 
语句 ， 包 括 Ada。 处 理 9oto 和 处 理 exit 所 过 到 的 问题 类 似 ， 因 为 某 些 goto， 像 exit 一 样 ， 涉 及 跳 到 尚未 
定义 标号 的 前 向 跳 转 。 如 果 在 编译 器 使 用 的 玉 中 包括 了 元 组 的 符号 化 标号 ， 那 么 一 旦 明确 特定 的 goto 语 
句 的 合适 目标 标号 ，goto 的 翻译 将 很 容易 。 如 果 要 求 一 遍地 址 解析 ， 则 再 一 次 地 ， 可 以 使 用 任何 间接 跳 
转 、 链 式 引 用 或 直接 -间接 技术 。 

为 翻译 goto 语 句 ， 我 们 还 必须 处 理 以 下 新 的 问题 : 

。 同名 标号 可 在 多 于 一 个 的 名 字 作 用 域 中 定义 。 

。 跳 出 块 或 过 程 的 goto 也 许 需 要 恢复 寄存 器 、 更 新 栈 顶 指针 和 修改 显示 表 。 
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标号 定义 
首先 考虑 标号 定义 的 问题 ， 这 里 使 用 Algol 60 和 Pascal 语 言 的 作用 域 规则 。 例 如 ， 我 们 可 以 在 一 个 
Algol 60 程 序 中 找到 如 下 的 标号 使 用 情况 : 
begin 
L: begin 
goto L; 


{possible definition of L} 
end 
end 


在 处 理 这 样 的 goto 语 句 时 ， 我 们 不 清楚 上 将 在 哪个 作用 域 中 定义 。 因 此 ， 有 必要 推迟 解析 标号 的 引用 直 
到 我 们 确定 哪个 作用 域 含有 正 被 引用 的 标号 。 

为 解决 这 个 问题 ， 必 须 将 标号 标识 符 存 放 在 符号 表 中 。 在 看 见 goto 时 ， 标 号 标识 符 可 能 已 被 解析 ， 
而 在 这 种 情况 下 ， 因 为 我 们 已 经 看 见 了 标号 的 定义 实例 ， 所 以 知道 goto 的 目标 将 转向 此 标号 ， 或 者 若 该 
标号 标识 符 尚 未 解析 ， 那 么 此 时 我 们 将 维持 一 个 位 置 链 ， 在 这 些 位 置 上 生成 那些 稍 后 必须 回填 的 到 目标 
地 址 的 跳 转 。 这 个 回填 是 必 不 可 少 的 ， 即 使 用 作 JUMP 元 组 目标 的 是 符号 化 标号 而 不 是 元 组 序号 ， 因 为 
一 个 未 解析 的 标号 标识 符 没 有 与 之 关联 的 标号 元 组 。 

对 于 在 Ada 和 Algol 60 中 编译 goto， 有 三 件 事 值得 关注 : (D 已 看 见 goto (2) 已 定义 标号 和 (3) 已 
离开 作用 域 。 在 前 两 个 事件 中 的 任 一 个 发 生 时 ， 在 最 内 层 作用 域 对 应 的 符号 表 中 可 能 有 也 可 能 没有 此 标 
号 已 解析 的 条 目 。 在 离开 一 个 作用 域 时 ， 我 们 必须 处 理 在 它 相 应 的 符号 表 中 的 那些 已 解析 或 尚未 解析 的 
标号 条 目 。 每 种 情况 处 理 的 方式 不 同 ， 如 图 12-6 中 的 列表 所 示 。 


[Resolved Unresolved Noentry | 
goto L generate append chain new unresolved entry 
<<L>> error resolve new resolved entry 

Close scope flush propagate 一 


图 12-6 处 理 Ada 和 Algol 60 中 的 goto 


符号 表 条 目 代 表 以 下 动作 : 对 于 generate 的 情况 ， 需 要 生成 一 个 到 包含 在 已 解析 条 目 中 标号 元 组 的 
跳 转 。 对 于 append chain 的 情况 ， 需 要 生成 一 个 到 未 知 地 址 的 跳 转 ， 该 跳 转 元 组 的 位 置 将 被 添加 到 由 此 
类 位 置 组 成 的 链 中 ， 该 链 位 于 未 解析 标号 的 符号 表 条 目 中 。 除 了 必须 为 标号 创建 一 个 符号 表 条 目 以 及 将 
跳 转 元 组 位 置 作为 链 中 第 一 个 元 素 以 外 ，new unresolved entry 情 况 与 append chain 情 况 很 像 。 error 的 
情况 显而易见 ; 这 种 情形 表示 在 一 个 作用 域 中 有 重复 的 标号 定义 。 对 于 resolve 的 情况 ， 标号 在 符号 表 
中 的 条 目 已 从 未 解析 变 为 已 解析 ， 此 时 将 生成 LABEL 元 组 ， 并 且 回 填 链 中 所 有 跳 转 元 组 使 之 跳 转 到 这 个 
新 的 标号 元 组 。 对 于 new resolved entry 的 情况 ， 仅 需要 生成 一 个 LABEL 元 组 并 将 该 标号 和 对 应 的 元 组 
地 址 保存 到 符号 表 中 。 对 于 flush 的 情况 ， 只 需要 从 符号 表 中 删除 相应 标号 。 因 为 这 通常 发 生 在 退出 一 个 
作用 域 时 ， 所 以 不 需要 其 他 任何 显 式 的 工作 。propagate 的 情况 是 惟一 复杂 的 情况 。 如 果 正 要 退出 一 个 
Algol 60 程 序 的 最 外 层 作用 域 ， 或 Ada 程 序 的 过 程 、 包 或 任务 的 最 外 层 作 用 域 时 ， 此 时 将 表明 有 错误 产 
让 一 个 未 定义 的 标号 已 被 作为 了 跳 转 目 标 。 否 则 ， 在 该 标号 的 下 一 个 作用 域 层 ， 符 号 表 可 以 包含 也 可 
以 不 包含 该 标号 的 条 目 。 如 果 没 有 相应 条 目 ， 则 创建 一 个 新 的 未 解析 的 条 目 ， 并 在 该 条 目 中 包含 那个 随 
着 作用 域 退 出 而 正 消失 的 链 。 邵 果 存 在 一 个 已 解析 的 条 目 ， 则 使 用 其 值 回 填 正 退出 的 作用 域 中 所 有 未 解 
析 的 条 目 链 上 的 元 组 。 如 果 已 有 一 个 未 解析 的 条 目 ， 则 将 当前 链 附加 到 它 的 链 上 。 

Pascal 语 言 要 求 标 号 在 作用 域 的 首部 声明 ， 且 必 须 在 那个 作用 域 而 不 是 在 某 个 内 伐 的 作用 域 中 声明 。 
在 声明 标号 以 后 ， 将 在 符号 表 中 建立 一 个 未 解析 条 目 。 因 此 ， 在 编译 goto 时 ， 在 符号 表 中 必定 有 该 语句 
的 目标 标号 条 目 ， 且 该 条 目 不 需 要 在 最 内 层 作 用 域 中 。 图 12-7 中 的 动作 表 对 于 Pascal 来 说 很 简单 AA 
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该 语言 没有 propagate 的 情况 ， 并 且 错 误 也 能 很 快 地 被 侦 测 出 来 。 


[TT Resolved | Ummehed | Noemy —— 
[Deseret (| — | enor — | new unresolved entiy - 
[gotol | generate | append chain | emo 
E [enor [se | mr . 
[Chose scope | ea — ]— — —  — — 


图 12-7 处 理 Pascal 中 的 goto 


我 们 根据 声明 创建 一 个 符号 表 条 目 , 并 且 和 以 前 一 样 , 将 标号 的 引用 串 成 链 直 到 该 标号 被 定义 为 止 。 
然而 ， 在 作用 域 结束 时 ， 不 需要 合并 引用 和 链 。 相 反 ， 我 们 会 给 出 有 关 在 作用 域 中 声明 却 未 定义 的 标号 的 
立即 诊断 信息 。 

我 们 也 可 以 使 用 链 式 技术 来 解决 其 他 的 标号 作用 域 问 题 。 许 多 语言 (如 Pascal 和 Ada) 不 允许 从 外 
面 跳 人 某 些 结构 (for loop. while loop 和 case 语 句 ) 中 。 强 制 此 规则 的 一 个 简单 办 法 是 : 将 在 这 样 的 
结构 中 定义 的 所 有 的 标号 链接 在 一 起 。 结 构 中 对 这 些 标号 的 局 部 引用 将 按 正 常 方式 处 理 。 然 而 ， 可 以 通 
过 把 这 些 标号 标记 为 不 可 访问 的 来 禁止 那些 来 自 结构 外 部 的 引用 。 例 如 ， 考 虚 : 

for | := 1 to 10 do 

goto L; (illegal) 


for J := 1 to 20 do 
goto L; (legal) 













L: 
end (for J) 
end {for I) 


这 里 , 我们 将 每 个 for loop 中 出 现 的 所 有 前 向 引用 串 成 链 。 内 层 的 引用 在 循环 分 析 结 束 时 被 正常 解析 。 然 后 ， 
L 被 标记 为 inaccessible。 在 外 围 循 环 分 析 结 束 时 ， 它 对 L 的 引用 不 能 被 合法 地 解析 。 
跳出 块 或 过 程 

我 们 现在 考虑 为 跳出 块 或 过 程 而 需要 的 额外 代码 。 在 跳出 前 ， 需 要 弹出 运行 时 栈 顶 、 修 改 显 示 表 和 
th SZ e 

不 论 我 们 使 用 块 级 还 是 过 程 级 活动 记录 ， 弹 出 运行 时 栈 顶 不 需要 什么 额外 的 工作 。 每 个 子 程序 和 块 
均 有 局 部 的 stack_top。 当 我 们 离开 块 或 过 程 时 ， 我 们 将 其 恢复 到 先前 的 stack_top 值 ， 这 具有 隐 式 弹出 
的 效果 。 

如 果 使 用 了 静态 链 色 ， 则 不 会 有 显示 表 ， 也 就 不 要 求 有 显示 表 的 修改 。 然 而 ， 显 式 表 的 校正 依赖 于 
正确 的 返回 序列 。 引 用 标号 的 goto 要 求 标 号 定义 在 可 见 的 外 层 词法 作用 域 中 (标号 和 变量 有 同样 的 作用 
域 规则 )。 因 此 ， 在 goto 执 行 后 所 需要 的 部 分 显示 表 已 经 是 正确 的 。 但 是 ， 和 我 们 先前 看 到 的 一 样 ， 即 便 
在 显示 表 中 未 用 到 的 部 分 也 必须 是 正确 的 。 让 我 们 回 过 头 再 看 一 下 在 9.2.1 节 中 用 来 讨论 显示 表 的 例子 : 


procedure A is 
procedure B is 


procedure C is 

end C; 

eee 
end B, 

e. + B; -> 
end A; 
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如 果 出 现 以 下 过 程 调用 序列 (其 中 ' 用 来 表示 在 某 过 程 第 一 次 调用 返回 前 的 第 二 次 调用 ): 
ABCAC BC 
那么 ， 图 12-8 显 示 了 每 次 调用 时 有 效 的 显示 表 ， 以 及 每 次 保存 的 显示 表 值 。 


disPlayf2] ?? 


displayl1] 
displayl0] A 





12-8 goto 前 创建 的 显示 表 


如 果 C' 直 接 通过 goto 返 回 到 A'， 则 两 个 显示 表 寄 存 器 B 和 C 必 须 分 别 被 恢复 到 层次 2 和 3。 一 般 地 ， 
要 求 为 在 goto 的 源 和 目标 之 间 的 动态 链 徐 上 的 每 一 个 活动 记录 恢复 一 个 显示 表 寄 存 器 。 幸 运 的 是 ， 这 项 
额外 工作 仅 限 于 非 局 部 goto 的 情况 。 

各 太 链 忽 洲 免 了 这 些 问题 ， 其 中 每 一 个 活动 记录 由 正确 的 引用 环境 构成 ， 且 该 环境 不 会 被 进一步 的 
过 程 调用 所 改变 。 可 以 建立 一 个 混合 方案 ， 它 保留 了 静态 链 秘 并 构造 了 显示 表 。 在 这 些 方案 中 ， 期 竺 着 
非 局 部 的 goto 从 静态 链 簇 中 重建 全 部 的 显示 表 ， 而 正常 的 返回 仅 需 恢复 一 个 显示 表 寄 存 器 即 可 。 现 在 ， 
每 一 个 过 程 调用 必须 为 建立 静态 链 徐 付出 少许 额外 的 代价 。 

跳 到 标号 变量 或 标号 参数 的 goto 语 句 可 以 用 静态 链 复 非常 容易 地 实现 ， 也 可 以 用 显示 表 来 处 理 。 
其 中 的 技巧 是 将 它们 视 为 形式 过 程 。 

在 离开 一 个 块 时 ， 我 们 不 恢复 寄存 器 ， 因 此 转 出 块 的 跳 转 不 需要 额外 的 工作 。 而 在 跳出 一 个 过 程 时 
需要 恢复 寄存 器 (例如 ， 如 果 for 的 索引 被 保存 在 寄存 器 中 )。 恢复 寄存 器 的 方法 取决 于 寄存 器 第 一 一 次 是 


— 如 何 被 保存 的 。 我 们 会 在 第 13 章 中 讨论 一 些 可 供 选择 的 办 法 。 


12.6 异常 处 理 


在 程序 设计 语言 Ada 的 各 种 控制 结构 特性 中 ， 异 常 处 理 向 编译 器 的 编写 者 提出 了 巨大 的 挑战 。 和 
Ada 语 言 中 其 他 一 些 复杂 特性 (它们 大 多 需要 更 大 的 编译 时 复杂 度 ) 不 同 ， 异 常 处 理 有 着 显著 的 运行 时 
牵连 。Ada 语 言 的 异常 处 理 特性 提出 了 许多 有 趣 的 问题 : 

。 异常 可 以 被 隐 式 地 或 显 式 地 引发 。 

。 异常 传播 具有 静态 和 动态 的 特征 。 在 程序 块 和 包 中 的 异常 ， 如 果 不 在 本 地 加 以 处 理 ， 则 可 以 被 静 

态 地 传播 到 外 围 包含 单元 ; 但 在 子 程序 中 的 异常 可 以 被 动态 地 传播 到 调用 者 〈 并 被 重新 引发 )。 

。 异常 名 遵循 普通 的 作用 域 规则 ， 但 异常 传播 却 不 是 这 样 的 。 因 此 ， 有 可 能 传播 一 个 异常 到 某 个 该 

异常 名 不 可 知 的 作用 域 。 

。 民 党 传播 规则 依赖 于 恰好 引发 异常 的 地 方 。 特 别 地 ， 在 声明 部 分 和 异常 处 理 程序 中 引发 的 异 稼 同 

那些 在 语句 中 引发 的 异常 传播 方式 不 同 。 

。 在 单元 (unit) ( 块 、 包 或 子 程序 ) 体 后 可 以 可 选 地 声明 异常 处 理 程序 。 我 们 期 望 许多 单元 不 提供 

异常 处 理 程序 ， 但 提供 的 处 理 程序 的 可 能 性 也 不 应 当前 弱 这 些 单元 的 翻译 。 

. 包 和 子 程序 可 以 被 单独 编译 ， 其 中 异常 可 以 在 一 个 编译 单元 中 声明 和 引发 而 在 另 一 个 编译 单元 中 

加 以 处 理 。 

异常 处 理 提出 的 基本 问题 是 : 当 程 序 在 执行 期 间 引 发 异常 时 ， 必须 查找 和 执行 合适 的 异常 处 理 程序 。 
最 直接 的 异常 处 理 实现 方法 是 保存 某 些 代表 异常 处 理 程序 的 运行 时 数据 结构 并 利用 它们 找到 需要 的 处 理 
程序 。 这 种 方法 的 缺点 是 : 无 论 是 在 进入 或 退出 包含 处 理 程序 的 作用 域 时 ， 都 必须 修改 这 些 数据 结构 ， 
因此 即使 没有 引发 异常 ， 也 需要 相当 多 的 执行 时 间 花 费 。 





我 们 更 偏好 那些 不 会 招致 额外 开销 的 实现 ， 除 非 我 们 使 用 了 它们 支持 的 某 些 特性 。 本 节 中 提出 的 方 
法 在 异常 被 引发 前 没有 运行 时 代价 。 决 定 合适 的 异常 处 理 程序 所 付出 的 代价 只 依赖 于 到 达 那 个 处 理 程序 
所 必需 的 隐 式 子 程序 返回 次 数 。 这 个 依赖 可 能 是 最 少 的 ， 因 为 调用 模式 〈《 和 有 效 的 异常 处 理 程序 ) 一 般 
不 可 能 被 事先 预测 。 这 种 方法 的 空间 需求 也 是 适度 的 ， 它 和 异常 处 理 程序 个 数 和 程序 中 子 程序 个 数 之 和 
成 比例 。 

我 们 首先 提出 的 方案 仅 涉及 在 单个 编译 单元 中 异常 传播 的 静态 特性 。 也 就 是 说 ， 只 考虑 异常 可 能 传 
播 出 嵌 套 的 程序 块 和 包 ， 但 不 会 传播 出 子 程序 。 为 了 正确 处 理 异常 ， 在 程序 块 或 包 中 的 任意 点 ， 需 要 知 
道 从 哪里 可 以 找到 适合 给 定 异 常 的 处 理 程序 。 回 想 ， 如 果 没 有 找到 用 户 提供 的 处 理 程序 ， 所 有 的 异常 都 
将 有 一 个 默认 的 处 理 程序 。 这 个 默认 处 理 程序 的 特征 是 与 实现 相关 的 ， 但 可 能 的 默认 处 理 程序 只 是 简单 
地 打印 一 条 错误 信息 “异常 X 被 引发 " ， 然 后 终止 程序 的 执行 。 

给 每 个 异常 (预定 义 的 或 用 户 定义 的 异常 ) 指派 一 个 惟一 的 从 1 开始 的 整数 。 一 个 异常 在 内 部 用 这 
个 整数 码 来 表示 ， 该 整数 可 用 来 索引 转移 向 量 以 找到 异常 处 理 程序 。 在 开始 翻译 一 个 编译 单元 时 ， 异 常 
转移 向 量 仅 包括 预定 义 的 异常 和 所 有 默认 条 目 (它们 可 以 是 处 理 默 认 情 况 的 支持 例 程 的 地 址 )。 

对 每 一 个 已 声明 的 异常 ， 将 在 转移 向 量 中 添加 新 的 元 素 。 当 声明 一 个 显 式 的 异常 处 理 程 序 时 ， 必 须 
计算 个 已 更 新 的 转移 向 量 。 我 们 用 一 个 转移 向 量 覆 盖 的 地 址 区 间 来 限制 这 个 转移 向 量 。 也 就 是 说 ， 如 
果 异 常 e 在 地 址 a 处 引发 ， 那 么 用 e 作 索引 在 关联 地 址 a 的 转移 向 量 中 搜索 ， 然 后 跳 转 到 合适 的 处 理 程序 。 
每 个 处 理 程 序 在 被 翻译 的 时 候 包 含 一 个 程序 继续 执行 的 地 址 ， 即 跟 在 包含 异常 处 理 程序 的 单元 后 面 的 语 
句 或 包 的 地 址 。 在 (通过 转移 向 量 进入 的 ) 异常 处 理 程 序 执行 完成 后 ， 它 跳 到 那个 继续 执行 地 址 以 继续 
程序 的 执行 。 

在 最 简单 的 情况 下 ， 编 译 单元 的 程序 体 中 不 包括 异常 处 理 程 序 。 因 此 ， 我 们 仅 需要 用 单一 的 地 址 区 
间 去 覆盖 整个 编译 单元 。 所 关联 的 转移 向 量 是 那个 含有 预定 义 异 常 和 默认 处 理 程序 的 原始 同 量 。 

考虑 图 12-9 中 含有 异常 处 理 程序 的 编译 单元 实例 。 在 最 内 层 块 中 的 异常 处 理 程序 可 应 用 于 地 址 区 间 
3 中 的 语句 。 位 于 包 体 末尾 的 异常 处 理 程序 可 应 用 于 地 址 区 间 2、4 和 5 中 的 语句 。 预 定义 的 异常 处 理 程序 
可 应 用 于 地 址 区 间 1 和 6 中 的 语句 。 除 了 Singular 和 Constraint_Error 以 外 ， 共 他 可 在 区 间 3 中 引发 的 异常 
将 传播 到 P 的 异常 处 理 程序 。 因 为 P 有 一 个 处 理 others 的 处 理 程序 ， 所 以 在 区 间 2 到 5 中 引发 的 异常 不 可 
能 传播 得 更 远 。 

如 图 12-10 所 示 ， 我 们 用 了 三 个 转移 向 量 : 第 一 个 可 用 于 区 间 1 和 6; 第 二 个 可 用 于 区 间 2、4 和 5; 第 
三 个 可 用 于 区 间 3。 因 为 在 包 P 中 提供 处 理 others 的 处 理 程序 ， 所 以 我 们 会 把 它 的 地 址 从 转移 向 量 中 提 
取出 来 ， 并 把 它 作 为 向 量 的 默认 条 目 。 也 就 是 说 ， 如 果 向 量 中 的 一 个 位 置 含 有 一 个 空 条 目 ， 那 就 使 用 这 
个 默认 地 址 。 

如 果 没 有 提供 others 的 处 理 程序 ， 则 异常 可 以 传播 出 去 。 这 意味 着 : 如 果 没 有 局 部 的 异常 处 理 程 
序 ， 那 么 将 使 用 外 围 包 含 单 元 的 处 理 程序 。 这 种 情况 发 生 在 示例 中 的 最 内 层 块 里 。 根 据 实 现 方法 ， 我 们 
已 拷贝 了 外 围 包 含 单元 ， 即 程序 包 P (作为 默认 ) 的 转移 向 量 ， 然 后 为 Constraint_Error 和 Singular 更 新 
有 关 条 目 以 反映 局 部 处 理 程序 声明 。 

当 最 外 层 单 元 分 析 完 毕 ， 所 有 转移 向 量 均 已 知 。 这 时 ， 我 们 得 到 一 张 地 址 区 闻 表 ， 每 一 个 都 有 自己 
的 转移 向 量 。 这 些 区 间 是 连续 的 且 和 覆盖 整个 程序 。 共 享 相同 转移 向 量 的 相 邻 区 间 可 以 被 合并 《例如 本 例 
中 的 区 间 4 和 5)。 为 节省 空间 ， 可 利用 以 下 事实 : 即 某 个 区 闻 的 开始 地 址 要 高 于 它 前 一 个 区 间 的 结束 地 
址 。 这 人 允许 我 们 针对 每 个 区 间 保 存 一 个 地 址 (区 间 的 开始 地 址 ) 和 一 个 转移 问 量 的 引用 ，。 

当 算 术 运 算 或 区 间 错 误 隐 式 地 引发 异常 时 ， 可 以 在 区 间 表 ( 见 图 12-11) 中 进行 二 分 搜索 以 便 快速 
找到 合适 的 转移 向 量 ， 通 过 它 我 们 随后 可 以 进入 合适 的 处 理 程序 。 对 于 显 式 引发 的 异常 ， 可 以 生成 转 到 
合适 处 理 程 序 的 跳 转 指令 ， 该 处 理 程序 的 地 址 可 在 编译 时 决定 (使 用 编码 在 转移 向 量 中 的 数据 ) 
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end P; 


图 12-9 带 有 异常 处 理 程序 的 编译 单元 


ERS [n] Ti 默认 
tv1 [Pi] P2]P3] Pa] Ps | re | [| 
(6 个 预定 义 的 处 理 程序 ) 
we [ I | | TT [e] 
(P 中 定义 的 处 理 程序 ) 
ws [ ] lcl | | si 
(内 部 块 中 定义 的 处 理 程序 ) 


图 12-10 图 12-9 中 程序 示例 的 转移 网 量 


从 子 程序 中 传播 异常 

MATENI, AUUE- BG REA EBD. 
包括 声明 和 局 部 定义 的 异常 处 理 程序 。 这 个 区 间 有 一 个 转移 癌 量 ， 
这 个 转移 向 量 的 默认 条 目 引 用 特殊 的 propagate_exceptiont) 
例 程 。 该 例 程 执行 一 个 正常 的 子 程序 返回 并 在 返回 时 立即 再 次 
(ath) 引发 原来 的 异常 。 返 回 地 址 决定 了 合适 的 转移 向 量 ， | 
而 这 个 转移 向 量 又 决定 了 要 进入 的 处 理 程序 。 12.11 图 12-9 中 示例 的 区 间 图 

在 翻译 完 子 程序 中 的 所 有 单元 时 ， 如 果 声 明了 异常 处 理 程序 ， 
则 创建 一 个 新 的 区 间 ， 包 括 与 之 关联 的 转移 向 量 。 在 子 程序 中 异常 的 传播 是 静态 的 ， 但 如 果 不 提供 局 部 的 处 
理 程序 ， 那 么 propagate_exception( ) 例 程 将 在 调用 点 再 次 引发 那个 异常 。 
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如 条 被 调用 的 过 程 负责 恢复 寄存 器 ， 则 propagate_exception( ) 例 程 相当 简单 。 我 们 将 执行 正常 
的 子 程序 收尾 工作 〈 重 置 显示 表 、 恢 复 寄存 器 等 )。 然 而 ， 我 们 没有 跳 转 到 返回 地 址 ， 而 是 将 它 和 异常 
码 一 起 传递 给 隐 式 的 异常 处 理 程序 ， 就 好 像 一 个 隐 式 异常 已 被 引发 一 样 。 如 果 由 调用 者 来 恢复 寄存 器 ， 
则 我 们 必须 用 返回 地 址 来 定位 并 执行 寄存 器 恢复 代码 ， 然 后 再 调用 隐 式 的 异常 处 理 程序 。 
表示 转移 向 量 和 区 间 图 

区 间 的 数目 不 会 超过 子 程序 数 和 带 有 异常 处 理 程序 的 戏 套 单元 数 之 和 的 两 佑 。 因 此 ， 每 个 子 程序 区 
间 图 的 表示 只 需要 不 多 的 存储 字 。 包 含 处 理 程 序 声明 的 单元 也 有 类 似 的 存储 开销 。 

不 同 转 移 向 量 的 数目 实际 上 就 是 声明 异常 处 理 程序 的 单元 数 。 一 般 地 ， 转 移 向 量 较 稀 中， 因为 它们 
仅 包含 非 默 认 的 条 目 ， 对 应 着 那些 已 提供 显 式 的 处 理 程序 的 异常 。 我 们 可 以 想像 一 个 通过 转移 向 量 号 
(保存 在 区 间 图 中 ) 和 异常 码 来 索引 的 稀疏 数组 (sparse array )。 已 知 有 各 种 有 效 的 稀 朴 数组 (如 分 析 表 ) 
的 压缩 算法 。 其 中 最 合适 的 是 双 偏 移 索 引 ， 它 提供 了 快速 搜索 和 接近 最 优 的 压缩 。 我 们 将 在 第 17 章 中 详 
细 讨 论 该 方法 。 

分 块 编译 

分 块 编译 带 来 了 另外 一 个 问题 : 异常 编号 。 回 想 我 们 先前 曾 给 每 一 个 异常 指派 一 个 惟一 的 整数 码 。 
我 们 允许 每 个 编译 单元 独立 地 为 在 其 中 声明 的 异常 指派 编号 。 这 多 少 有 点 像 内 部 指派 的 地 址 被 重 定位 一 
样 ， 异 常 的 编号 也 必须 在 执行 前 被 重 定位 (relocated)。 因 此 ， 异 常 的 编号 在 编译 单元 之 间 就 变 得 惟一 ， 
县 转移 向 量 的 索引 区 间 是 程序 中 声明 的 异常 总 数 。 

压缩 的 转移 向 量 数组 由 对 应 每 个 编译 单元 的 子 数组 组 成 。 当 分 块 编译 的 模块 被 绑 定 在 一 起 时 ， 必 须 
建立 这 个 完整 的 数组 并 压缩 它 。 | 

在 许多 情况 下 ， 在 某 个 编译 单元 中 声明 的 异常 不 能 在 另 一 个 编译 单元 中 访问 。 这 种 情形 不 会 造成 任 
何 问题 ， 并 且 在 压缩 时 也 不 会 引起 任何 空间 惩罚 。 进 一 步 地 ， 我 们 采用 的 默认 机 制 简 单 地 处 理 了 一 个 蜡 
常 通 过 其 名 字 不 可 知 的 作用 域 进行 传播 的 情况 。 

在 一 遍 编 译 器 中 的 实现 

在 处 理 异 常 声明 后 ， 将 指派 给 每 个 异常 一 个 惟一 的 整数 码 ， 这 就 扩展 了 转移 向 量 。 在 声明 异常 处 理 
程序 的 时 候 ， 它 在 转移 向 量 中 为 相关 的 语句 列表 产生 一 个 显 式 的 条 有 目 。 每 个 处 理 程序 在 被 翻译 时 ， 包 含 
程序 继续 执行 的 地 址 。 该 地 址 是 跟 在 包含 异常 处 理 程序 的 单元 后 面 的 语句 或 包 的 地 址 。 在 处 理 程序 〈 通 
过 转移 向 量 进入 ) 执行 完 以 后 ， 它 跳 到 那个 地 址 继续 程序 的 执行 。 该 跳 转 和 case 语 句 中 跟 在 When 子 句 
后 的 出 口 地 址 的 跳 转 类 似 。 

在 遇见 begin 时 ， 我 们 会 在 语义 栈 上 保存 语句 列表 的 首 地 址 。 在 语句 列表 的 末尾 ， 可 以 看 见 
exception ( 它 指示 处 理 程序 定义 的 开始 ) 或 end。 如 果 看 见 的 是 end， 则 弹出 语句 列表 的 首 地 址 ， 因 
为 这 个 语句 列表 使 用 与 它 的 直接 包含 单元 关联 的 转移 向 量 。 如 果 有 exception ， 那 么 下 一 个 可 用 的 指令 
地 址 将 作为 从 begin 开 始 的 区 间 的 结束 地 址 。 在 处 理 了 紧 随 其 后 的 异常 处 理 程序 声明 之 后 ， 将 构造 一 张 
表 以 包含 异常 码 和 相应 异常 处 理 程序 的 开始 地 址 。 在 遇 到 end 时 ， 必 须 将 这 张 表 和 相关 的 区 间 地 址 传播 
到 外 围 包含 单元 的 语义 栈 条 目 中 ， 如 果 有 的 话 。 然 后 ， 弹 出 当前 单元 的 栈 条 目 。 

在 分 析 完 最 外 层 单 元 时 ， 我 们 从 默认 向 量 开 始 ， 使 用 区 间 边 界 以 及 在 处 理 嵌 套 单元 时 收集 的 异常 处 
理 程序 表 来 计算 所 有 的 转移 向 量 。 然 后 ， 我 们 得 到 一 张 地 址 区 间 表 ， 其 中 每 个 地 址 区 间 与 一 个 转移 四 量 
关联 (在 前 面 的 讨论 中 已 提 到 过 : 多 个 地 址 区 间 可 以 共享 一 个 向 量 )。 如 果 在 单元 中 保存 了 所 有 引发 姑 
常 的 语 名 列表， 那么 在 所 处 理 的 异常 不 会 传播 到 过 程 以 外 时 ， 可 以 使 用 转移 向 量 将 raise exception n 的 
库 例 程 调用 转换 为 到 处 理 程序 的 直接 跳 转 。 我 们 还 必须 使 用 这 些 向 量 生成 某 种 运行 时 表示 用 于 处 理 待 传 
播 的 异常 ， 就 像 已 描述 的 那样 。 

在 图 12-11 中 显示 的 区 间 图 ， 通 常 是 一 种 很 有 用 的 技术 ， 除 了 异常 处 理 的 实现 以 外 ， 它 还 可 以 应 用 
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于 其 他 许多 问题 。 例 如 ， 在 像 Pascal 这 样 的 语言 中 ， 没 有 异常 处 理 的 特性 ， 如 果 程 序 执行 了 某 些 非法 操 
E (如 企图 使 用 非法 下 标 值 进行 数 组 下 标 操作 )， 那 么 它 的 执行 将 被 终止 。 大 多 数 编 译 器 在 这 种 情况 下 
生成 一 条 错误 信息 ， 其 中 包括 了 源 程序 中 导致 该 错误 的 语句 的 行 号 。 将 代码 段 映射 到 行 号 的 区 间 图 ， 在 
发 生 错误 时 ， 可 用 来 从 程序 计数 器 的 值 导 出 有 错误 的 行 号 。 


12.7 短路 计算 布尔 表达 式 


普通 的 布尔 运算 符 and 和 or 可 以 像 其 他 所 有 的 中 级 运算 符 一 样 被 处 理 。 其 中 首先 计算 两 个 操作 数 ， 
然后 施用 运算 符 计算 结果 到 一 个 临时 变量 。 然 而 ，and 的 短路 计算 运算 符 and then 以 及 or 的 短路 计算 运 
算 符 or else 很 有 挑战 性 ， 它 们 意味 着 并 不 总 是 计算 两 个 操作 数 。 左 操作 数 总 是 第 一 个 被 计算 。 如 采 那 
个 计算 足以 决定 表达 式 的 值 ， 那 么 就 不 再 计算 右 操 作 数 。( CC 语言 的 逻辑 运算 符 && 和 上 总 是 采用 短路 方法 
来 计算 。) 一 个 例子 是 : 


if | /= 0 and then 10/| > R then 
write (10/1); 


else 
write("Undefined"); 
end if; 


作为 运算 蔡 ， 短 路 计算 布尔 运算 符 可 以 和 其 他 二 元 运算 符 进 行 组 合 ， 例 如 ，A and B and then C and D. 

我 们 生成 的 代码 不 产生 代表 布尔 表达 式 的 值 ， 除 非 要 求 给 一 个 变量 赋值 。 该 代码 将 根据 表达 式 的 值 
产生 到 合适 元 组 的 控制 转移 。 在 产生 这 样 一 个 计算 的 过 程 中 , 每 个 操作 数 仅 在 必要 时 才 被 跳 转 到 并 计算 。 
和 为 通常 的 布尔 运算 符 生 成 的 普通 的 面向 表达 式 的 代码 (expression-oriented code) 相 比 ， 我 们 把 这 种 
形式 的 代码 称 为 跳 转 代码 (jump code). 

为 对 比 两 种 代码 的 形式 ， 首 先 考虑 A := A and B and C. 面向 表达 式 的 代码 可 能 是 : 

(AND, A, B, t1) 


(AND, tt, C, t2) 
(ASSIGN, t2, A) 


市 另 方面 对 A := A and then B and then C， 我 们 可 以 生成 以 下 跳 转 代码 ， 它 使 用 了 条 件 分 支 元 
组 ， 即 如 果 ARG2 为 真 则 跳 转 到 ARG3， 反 之 如 果 ARG2 为 假 则 跳 转 到 ARG4: 


: (BR, A, 2, 6) 

: (BR, B, 3, 6) 

: (BR, C, 4, 6) 

: (ASSIGN, True, t1) 
: (JUMP, 7) 

: (ASSIGN, False, t1) 
: (ASSIGN, t1, A) 


在 此 上 下 文中 ， 跳 转 代 码 看 起 来 很 精 糕 ， 但 它们 非常 适合 于 那些 询问 布尔 表达 式 的 控制 结构 ， 如 著名 的 
计 语 名 和 While 循环 。 
对 于 iiAandBandCthen...， 我 们 生成 的 面向 表达 式 的 代码 可 能 是 : 
(AND, A, B, t1) | 
(AND, t1, C, #2) 
(BR, t2, ThenAdr, ElseAdr) 
类 位 地 ， 对 于 if A and then B and then C then... , 我 们 生成 跳 转 代码 : 
1 : (BR, A, 2, ElseAdr) | 


2 : (BR, B, 3, ElseAdr) 
3 : (BR, C, ThenAdr, ElseAdr) 


上 述 每 种 情况 均 生 成 三 个 元 组 ， 但 平均 而 言 ， 后 者 代码 执行 得 较 快 。 例 如 ， 假 设 A、B 和 C 为 真 的 概 
率 各 为 50%。 对 于 面向 表达 式 的 代码 ， 在 所 有 的 情况 下 我 们 都 执行 那 三 个 元 组 。 然 而 ， 对 于 跳 转 代码 ， 
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我 们 平均 只 执行 1.75 个 元 组 ， 这 是 一 个 极 大 的 改进 。 

正如 我 们 先前 看 到 和 的，DATAOBJECT 记 录 在 编译 时 包含 着 访问 一 个 数据 对 象 所 需 的 所 有 数据 ， 它 还 
提供 三 种 寻 址 模式 : 

(1) 直接 常量 。 

(2) 直接 地 址 。 

(3) 间接 地 址 。 
也 就 是 说 ， 我 们 可 以 获得 数据 对 象 的 值 、 它 的 地 址 或 引用 它 的 间接 地 址 。 

对 于 布尔 值 ， 我 们 添加 第 四 种 寻 址 模式 ， 称 其 为 跳 转 代码 (jump code). 4 form == 
OBJECTJUMPCODE 了 时 ，data object 包 含 两 个 域 t_chain 和 f_chain。 我 们 有 : 


enum object_form { OBJECTVALUE, OBJECTADDRESS, 
OBJECTJUMPCODE ); 


typedef struct data object { 
type descriptor *type ref; 
enum object form form; 
union { 
/* form == OBJECTVALUE */ 
struct value value; 


/* form == OBJECTADDRESS */ 
struct address addr; 


/* form == OBJECTJUMPCODE / 
struct { 

patch node *t chain, *f chain; 
) 


): 
) data object; 
t_chain 和 f_chain 分 别 指示 两 个 由 patch_node 记 录 组 成 的 链表 的 表 头 ， 它 们 用 来 回 填 元 组 以 跳 转 到 
的 合适 的 位 置 ， 如 果 布 尔 表 达 式 为 真 则 用 t_chain ， 若 为 假 则 用 f_chain。 
patch_node 的 定义 如 下 : 
typedef struct patch node { 


/* Tuple to be backpatched */ 
address_range tuple; 


/* Which field to be filled in? (1. .4) x/ 
short field; 


/* next on chain */ 
struct patch node *next; 
) patch node; 


我 们 需要 通过 t_chain 和 f_chain 来 回填 ， 因 为 通常 在 布尔 表达 式 翻 译 完 之 前 我 们 不 知道 往 哪里 转移 。 

跳 转 代码 是 一 种 不 寻常 的 布尔 表达 式 计算 方法 ， 因为 我 们 从 不 在 寄存 器 或 存储 单元 中 实际 存放 布尔 
值 。 相 反 ， 这 个 值 总 是 隐 含 在 计算 最 后 结束 的 地 址 里 。 不 管 怎 样 ， 这 个 地 址 模式 都 非常 有 用 ， 因 为 布尔 
表达 式 经 常用 于 控制 流 ， 而 那些 地 方 很 适合 于 跳 转 代码 。 

对 于 布尔 表达 式 ， 可 以 很 容易 地 将 其 从 跳 转 代 码 形式 转换 回 直接 地 址 形式 。 定义 如 下 转换 例 程 ， 
convert to jump code( ) 和 convert to boolean value(). 这 两 个 例 程 生成 必要 的 元 组 并 创建 
struct data_object 来 描述 转换 的 结 采 : 


convert to jump code(data object *d) 


unsigned br adr; 

if (d-»object form {= OBJECTJUMPCODE) { 
br_adr = next tuple numbertt; 
generate (BR, d, TAdr?, FAdr?) ; 
d->object_form = OBJECTJUMPCODE; 
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d->t_chain = (patch node) { 
.tuple = br adr; 
.field = 3; 
next = NULL; } 
d-»f chain = (patch node) { 
‘tuple = br adr; 
.field = 
.next = NULL; } 
} 
) 
convert to boolean value(data object *d) 
{ 
address t; 
unsigned int a; 


if (d->object form == OBJECTJUMPCODE ) (t 
= get temporary; 
a = next tuple numbert*; 
generate(ASSIGN, TRUE, t): 
/* backpatch tuple on d.t chain to sddress a */ 
backpatch(d-»t chain, a); 
generate(JUMP, at3, ""); 
generate (ASSIGN, FALSE, t); 
/* backpatch tuple on d.t chain to address a + 2 */ 
backpatch(d-»f chain, a + 2); 
d-»object form - OBJECTADDRESS; 
d->addr = t; 


} 


只 要 我 们 有 了 一 个 采用 跳 转 代码 形式 表示 的 布尔 表达 式 并 需要 其 值 (例如 ， 在 一 个 赋值 语句 中 ) ， 就 可 
以 使 用 convert to boolean value() 。 类 似 地 ，convert to jump code() 可 以 将 布尔 值 转换 为 条 件 跳 
转 〈 例 如 ， 在 诈 香 名 中 )。 

下 面 Ada/CS 文 法 中 的 产生 式 可 以 用 来 生成 布尔 表达 式 。 从 <b Primary> si«factorsito j EAT 7l 
必需 的 ， 因 为 not 比 逻辑 运算 符 的 优先 级 要 高 很 多 。 


<b expr> — «b primary» ( «logical op» #start_op «b primary» #finish_op } 
<b primary» — <a expr» [ «relational op» <a expr> ] 

<a expr> —, «term 1» ( «adding op» «term 1>} 

«term 1> — «term» 

«term» — «factor» { <multiplying op» «factor» } 

«factor» — not «primary» ffprocess not 


<b expr>. «b primary». < a expr>, «term 1>, «term» 和 <factor> 具 有 DATAOBJECT 格 式 的 语义 记录 。 
进一步 地 ， 我 们 会 使 用 下 面 新 的 语义 记录 来 表示 <logic op>: 


struct bool op 1 
token operator; 
boolean short circuit; 


} ， 
在 分 析 了 布尔 运 z 算 符 后 将 立即 调用 语义 例 程 start_op() 。 如 果 运 算 符 是 短路 计算 运算 符 ， 它 将 开 
始 生 成 跳 转 代 码 。 


start op (<b primary», «logical op») => <b primary> 
{ 


if («logicalop».bool op. short | circuit) { 
convert to jump | code («b primary» . data object); 
/* does nothing if «bprimary» is already jump code * 


if (<logical op>.bool_op.operator == OR OP) 
backpatch <b primary>.data_object .f_chain 
to next tuple numbertt 
/* if left operand is false, then right operand 
must be evaluated and tested. */ 
else /* operator is AND_OP */ 
backpatch <b primary>.data_object .t_chain 
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to next_tuple_number++ 
/* if left operand is true, then right operand 
must be evaluated and tested. */ 
} else /* not short circuit */ 
convert_to_boolean_value (<b primary>.data_object) ; 
«b primary» — the updated DATAOBJECT record 
) - 


在 分 析 完 布尔 表达 式 的 第 二 个 操作 数 后 将 调用 语义 例 程 finish_op()。 如 果 生 成 的 是 跳 转 代码 ， 
则 该 例 程 仅 需 处 理 回填 结 点 链 ; 如 果 布 尔 值 是 想 要 的 结果 ， 那 么 该 例 程 调用 标准 例 程 eval_binary( ) 。 


finish op(«b primary,», «logicalop», «b primaryz>) => <b expr> 


Check that «b primary,>.data_object .object_type and 
«b primary;».data object.object type are BOOLEAN 
if («logicalop».bool op.short circuit) 1 
convert to jump code(«b primary?».data object); 
if (<logical op>.bool_op.operator == OR OP) { 
<bexpr> — (data object) { 
.t chain = 
merge(«b primary,».data object.t chain, 
«b primaryz».data object.t chain); 
/* 
* The whole expression is true if the left 
* operand is true or if the left operand is 
* false and right operand is true. 
*/ 
.f chain = <b primary;».data object.f chain; } 467 


/* 
* The whole expression is false if both the 
* left and right operands are false. 
*/ 
) else ( /* operator == AND OP */ 
<b expr> + (data object) { 

.f chain = 

merge (<b primary,>.data_object.f chain, 

«b primary;».data object.f chain), 


* The whole expression is false if the left 
* operand is false or if the left operand is 
* true and right operand is false. 

*/ 

.t chain = «b primary;».data object.t chain; } 
/* 

* The whole expression is true if both the 

* left and right operands are true. 

*/ 


) 
) else ( /* ordinary operator */ 
convert to boolean value(«b primary;».data object); 
«b expr> «+ eval binary(«b primary,>, 
«logical op», «b primary2») 
} 
} 


在 生成 跳 转 代码 的 时 候 ， 可 以 直接 实现 not 运 算 符 。 例 程 process_not ( ) 中 所 需要 做 的 仅仅 是 交换 
t_chain 和 f_chain 指 针 : 
process_not (<primary>) => <factor> 


Check that «primary».data object.object type is BOOLEAN 
if (<primary>.data_object.form == OBJECTJUMPCODE) { 
Interchange «primary».data object.t chain and 
«primary».data object.f chain 
«factor» + the updated DATAOBJECT record 
) else 
«factor» — eval unary (NOT OP, <primary>) 
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为 说 明 这 些 例 程 是 如 何 工作 的 ， 我 们 将 布尔 表达 式 


if A or eise not (B and then C) then --- 
的 追踪 分 析 结 果 放 在 图 12-12 中 。 这 其 中 仅 包含 了 那些 生成 元 组 或 修改 t+_chain 和 f_chain 的 步骤 。 在 


完成 所 有 回填 后 ， 可 从 图 12-12 中 得 到 最 终 的 元 组 是 : 


1 : (BR, A, ThenAdr, 2) 


2: 


(BR, B, 3, ThenAdr) 


3 : (BR, C, ElseAdr, ThenAdr) 
我 们 很 容易 看 出 这 些 代码 是 正确 的 。 


将 生成 : 


: (AND, A, B, tt) 
: (BR, t1, 3, 6) 

: (BR, C. 4, 6) 

: (ASSIGN, True, t2) 
: (JUMP, 7) 

: (ASSIGN, False, t2) 
: (AND, t2, D, t3) 

: (ASSIGN, t3, A) 


另外 ， 涉 及 常量 的 短路 计算 表达 式 不 容易 进行 常量 折 双 。 


Ono nh wh — 


Actions 


start_op(or else) 
convert to jump code(A) 
A.TC = (1,3) A.FC = (1,4) 
tch A.FC to 2 
A.TC = (1,3) A.FC = NULL 


start op(and then) 
convert to jump. code(B) 
B.C = (2,3) B.FC = (2,4) 
Backpatch B.TC to 3 
B.TC = NULL B.FC = (2,4) 


finish op(and then) 

convert to jump code(C) 
C.TC = (3,3) C.FC = (3,4) 

Resultt.TC = C.TC = (3,3) 


Resultt.FC = merge(B.FC,C.FC) = 


((2,4).(3,4)) 


ocess not() 
Result2.TC = ((2,4),(3,4)) 
Result2.FC = (3,3) 


finish_op(or else 


#12 Ë 


Generated Code 


1 : (BR,A,?,?) 
1 : (BR,A,?,2) 


2 : (BR,B,?,?) 
2 : (BR.B.3,) . 


3 : (BR,C,?,?) 


) 
Result3.TC = merge(A.TC,Result2. TC) = 


((1,3),(2,4),(3,4)) 


Result3.FC = Result2.FC = (3,3) 


As we process the if, we 


Backpatch Result3.TC to the ThenAdr 


and Backpatch Result3.FC to the ElseAdr 





图 12-12 追踪 短路 计算 布尔 表达 式 翻 译 


在 表达 式 中 可 以 任意 地 混合 使 用 短路 计算 的 以 及 正常 的 布尔 运算 符 ， 尽管 这 种 混合 往往 由 于 要 经 常 
来 回转 换 跳 转 代 码 而 生成 较 差 的 代码 。 因 此 ， 翻 译 下 面 的 语句 
A := A and B and then C and D; 


A -= True and then Faise and then True; 


因此 ， 使 用 上 述 例 程 翻译 下 面 的 语句 
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将 生成 : 

: (BR, True, 2, 6) 

: (BR, False, 3, 6) 

: (BR, True, 4, 6) 

: (ASSIGN, True, t1) 

(JUMP, 7) 

(ASSIGN, False, t1) 

: (ASSIGN, t1, A) 

土 述 代 码 虽 正确 但 几乎 没有 一 点 优化 。 这 个 问题 在 于 : 在 上 下 文中 ， 例 如 False and then. . .， 我 们 不 
知道 右 操 作 数 是 否 为 常量 。 如 果 是 ， 则 整个 表达 式 可 在 编译 时 进行 常量 折 释 。 如 果 不 是 ， 则 必须 为 右 操 
作 数 生成 代码 。 所 以 ， 我 们 必须 生成 BR 或 JUMP 元 组 来 阻止 它 的 计算 。 

为 了 折 熏 短路 计算 表达 式 ， 可 以 首先 建立 一 棵 表达 式 树 而 不 必 生 成 代码 ， 优 化 它 〈 例 如 ， 通 过 折 
登 ) 。 然 后 再 从 这 棵 树 上 生成 代码 。 这 种 方法 可 以 很 好 地 工作 ， 但 它 不 太 适 合 一 遍 编 译 器 。 

最 后 要 注意 的 是 ， 某 些 编译 器 为 所 有 的 布尔 运算 符 生 成 跳 转 代码 (并 经 常 声称 布尔 表达 式 是 经 过 优 
化 的 )。 如 果 语 言 的 定义 不 要 求 所 有 的 操作 数 在 所 有 情况 下 都 要 加 以 计算 (例如 ,为 强制 可 能 的 副作用 )， 
那么 短路 代码 将 是 最 好 的 。Pascal 使 这 种 选择 成 为 实现 相关 的 。 因 此 ， 某 些 Pascal 编 译 器 通过 短路 代码 实 
现 布尔 表达 式 ， 而 其 他 的 Pascal 编 译 器 则 生成 普通 的 表达 式 代 码 。 事 实 上 ， 以 前 的 Berkeley Unix Pascal 
解释 器 和 编译 器 (pipe) 就 区 别 在 这 一 点 上 。UW-Pascal 编 译 器 的 实现 方法 是 ， 在 条 件 语句 Cif. 
while 和 repeat) 中 生成 短路 代码 ， 而 在 赋值 语句 、 参 数 表 达 式 等 情况 下 生成 普通 的 表达 式 代 码 。 这 种 
折 中 方法 改进 了 整个 代码 的 质量 ， 但 也 容易 导致 意 想不到 的 结果 。 例 如 ， 表 达 式 (| <>0) and (Al > R) 
在 if 语 句 中 不 会 出 现 除法 错误 ， 但 在 赋值 语句 中 却 可 能 。 因 此 ， 在 这 个 例子 中 ， 由 于 缺乏 统一 的 语言 定 
义 而 导致 了 不 一 致 的 实现 ， 而 这 妨碍 了 程序 的 可 移植 性 。 

在 Ada 语 言 中 ， 运 算 符 and 和 or (以 及 所 有 非 短路 计算 运算 符 ) 都 必须 被 计算 ， 但 计算 的 次 序 却 没 
有 指定 。 可 以 使 用 普通 的 从 左 到 右 计算 次 序 ， 但 作为 一 种 优化 措施 也 可 以 重新 编排 计算 次 序 。 


12.7.1 单 地 址 短路 计算 


在 前 一 节 描 述 的 语义 例 程 假设 生成 的 是 元 组 形式 的 中 间 代 码 。 在 多 数 情况 下 ， 语 义 例 程 不 需要 改变 
很 多 即 可 直接 生成 机 器 代码 。 然 而 ， 短 路 计算 布尔 表达 式 的 技术 严重 依赖 于 这 样 的 假设 ， 条 件 分 支 指令 
指定 两 个 地 址 : 一 个 是 条 件 成 立 的 分 支 ， 而 另 一 个 则 是 条 件 不 成 立 的 分 支 。 

以 下 方法 基于 Logothetis 和 Mishra(1981) 所 开发 的 技术 。 该 技术 尽 可 能 地 推迟 跳 转 的 生成 ， 而 同时 
又 记 住 在 最 后 生成 的 时 候 这 些 跳 转 应 当 以 何 面目 出 现 。 

我 们 假设 除了 普通 的 算术 操作 ， 目 标语 言 还 有 这 样 的 操作 : (ASSIGN, loci, loc2)， 该 操作 拷贝 
loc1 的 内 容 到 loc2; (NOT, loc1, loc2)， 该 操作 将 loc1 中 的 内 容 (一 个 布尔 值 ) 的 逻辑 非 赋值 给 ioc2。 
我 们 同样 假设 有 比较 操作 (CMP, loc1, loc2)， 该 操作 设置 条 件 码 和 条 件 分 支 (B,cond,lioc)， 这 个 分 支 操 
作 根 据 条 件 码 进行 控制 流 分 支 转 移 (cond 是 GT、GE、 LT. LE. EQ. NE 和 ALWAYS 中 的 一 个 )。 注 意 ， 
CMP 操 作 可 用 第 7 章 的 元 组 运算 符 通过 减法 操作 来 模拟 ， 其 结果 可 被 临时 看 作 一 个 条 件 码 。 通 向， 我 们 
将 推迟 生成 条 件 分 支 操作 直到 我 们 清楚 它 应 当 使 用 什么 条 件 为 止 。 

DATAOBJECT 语 义 记录 必须 做 如 下 扩展 : 

enum cond { LT, LE, EQ, NE, GT, GE }; 


enum object form { OBJECTVALUE, OBJECTADDRESS, 
OBJECTJUMPCODE }; 


- O0) Qn b GN ~ 


typedef struct data object { 
type descriptor *type ref; 
enum object form form; 
union { 
/* form == OBJECTVALUE */ 
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struct value valua; 


/* form == OBJECTADDRESS */ 
struct { 
struct address addr; 
boolean negated; 
} 
/* form == OBJECTJUMPCODE / 
struct { 
patch node *t chain, *f chain; 
enum cond condition; 


}; 


}; 
) data object; 


t_chain 和 f_chain 同 先前 一 样 : 即 为 位 置 的 链表 ， 这 些 位 置 上 的 分 支 指令 在 表达 式 确 定 为 真 
(t chain) 或 为 假 (f_chain) 时 将 跳出 表达 式 。 域 condition 解 释 最 近 的 CMP 指 令 的 含义 如 王者 
有 的 话 ): 例如 ， 假 定 condaition = GT， 那么， 如果 我 们 想 在 表达 式 为 假 时 使 控制 转移 到 label 以 及 表 
达 式 为 真 时 使 控制 进入 下 一 条 语句 ， 则 应 在 已 生成 的 代码 后 跟 有 (B, GT, label). aiki, condition 
表明 这 种 分 支 所 跟 的 代码 应 在 条 件 成 立时 使 控制 流 顺 序 流 入 。OBJECTADDRESS 变 体 的 negated 域 用 来 
避免 不 必要 的 not 代 码 。 

假设 我 们 使 用 以 下 函数 来 操作 patch_node 记 录 的 链表 : append(location, chain2 ) 国 数 将 一 
个 位 置 添加 到 链表 中 并 返回 已 更 新 的 链表 ; merge(chainl, chain2) 国 数 返回 两 个 链表 连接 的 新 链 
表 ; 过 程 backpatch(location， chain) 将 链 中 所 有 指令 的 地 址 域 置 成 给 定 的 位 置 。 在 稍 后 概括 描述 
的 例 程 中 还 使 用 了 一 些 其 他 的 子 程序 。to_jump_code( ) 和 from_jump_code ( ) 是 转换 例 程 ， 它 们 很 像 
上 一 节 中 的 那些 例 程 : 

to jump code (data object *b) 


{ 
enum cond c; 


generate (CMP, b, TRUE, ""); 
c = b-»negated ? EQ : NE; 


b->form = OBJECTJUMPCODE; 
b->t_chain = NULL; 
b->f_chain = NULL; 
b->condition = c; 

} 


from jump code(data object *b, address t) 
t | 

/* t is a temporary supplied  */ 

/* by the calling routine */ 


| fall through on true(b); 

generate(ASSIGN, TRUE, t); 
generate (b, ALWAYS, next tuple number + 2, ""); 
backpatch(next tuple numbertt, b-»f chain); 
generate (ASSIGN, FALSE, t, ""); 
b->form = OBJECTJUMPCODE; 
b->addr = t; 
b->negated = FALSE; 

} 


fall through_on_true()#fall_through_on_false() 在 计算 单个 操作 数 后 将 生成 合适 的 分 
支 并 调整 patch_node 链 到 合适 的 直接 控制 流 上 : 
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/* 
* Fix up the code for b to fall through to the 
* next statement if b is true 


*/ 


fall through on true(data object *b) 

{ 
if (b->form !z OBJECTJUMPCODE) 

to jump code (b); 

append (next tuple number, b->f_chain) ; 
generate(b, b->condition, ?, "uy, 
backpatch(next tuple number, b-»t chain); 
b-»t chain = NULL; 


/* 
* Fix up the code for b to fall through to the 
* next statement if b is false 


*/ 


fall through on false(data object *b) 

{ 
if (b->form != OBJECTJUMPCODE) 

to jump code(b); 

append(next tuple number, b-»t chain); 
generate(b, complement (b-»condition), ?, ""); 
backpatch (next tuple | number, b->f .. chain); 
b-»f chain = NULL; 


} 
可 用 negate( ) 例 程 来 实现 not 操 作 而 不 必 生 成 任何 代码 。 它 使 用 使 条 件 翻转 的 例 程 complement ( ): 473 


enum cond complement (enum cond c) 


{ 


switch (c) { 


case LT: return GE; 
case LE: return GT; 
case EQ: return NE; 
case NE: return EQ; 
case GT: return LE; 
case GE: return LT; 


} 
} 


negate (data object *b) 
{ 
if (b->form == OBJECTVALUE) 
b->value.int value = — b-»value.int value; 
else if (b->form == OBJECTADDRESS) 
b->negated = ! b-»negated; 
else { /* b->form == OBJECTJUMPCODE */ 
exchange b->t chain and b-»f chain; 
b->condition = complement (b- ->condition) ; 


} 


为 清楚 起 见 ， 图 12-13 给 出 的 布尔 表达 式 文法 仅 包含 短路 计算 布尔 运算 符 。 和 在 Ada 文 法 中 一 样 ， 
and then 和 or else 具 有 相同 的 优先 级 ， 类 似 地 ， 出 于 简单 性 的 考虑， 我 们 省 略 了 算术 表达 式 (<a 
expr>) 和 “其 他 ”语句 (<other stmt>) 的 产生 式 和 语义 例 程 。 

ftt( ) 和 ftf( ) 语 义 例 程 主要 使 用 先前 给 出 的 fall_through_on_true() 和 fall through on false() 
例 程 : 

ftt (<b primary») => <b expr> 


fall through on true («b primary. data object) 
<b expr» e- the updated DATAOBJECT record 





wow: -一 -—-—— - 
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ftf (<b primary>) => <b expr> 
{ 


fall through on false (<b primary». data object) 
<b expr> — the updated DATAOBJECT record 


<b expr> 

<b expr tail> 
<b expr tail> 
<b primary> 
<a @xpr> 
«term 1» 
«term» 
«factor 
«stmt» 
«stmt» 
«stmt» 


«else part» 


«else part- 
«stmt» 


— «b primary» ( «b expr tail» ) 

— #ftt and then «b primary» #bool_op 

—, #itf or eise «b primary» #bool_op 

— «a expr» [ «relational op» «a expr» compare ] 

— «term 1» ( «adding op» «term 1» ) 

— «term» 

— «factor» ( «multiplying op» «factor» ) 

— not «primary» fprocess not 

— «other stmt> ; 

— «Var» := «b expr» 4b. assign ; 

— if #start_if «b expr» #it_test then «stmt list» 
( elsif gen jump fpatch eise jumps <b expr» lif test 
then «stmt list» } «else part» end if ; patch out jumps 

— eise #gen_jump fipatch eise jumps «stmt list> 

— ifpatch eise jumps 

+ while #start_while «b expr» «while test 


loop «stmt list» end loop «finish while 





12-13. 布尔 表达 式 文法 


除了 在 必要 时 转换 到 跳 转 代 码 ，bool_op( ) 和 process_not( ) 的 工作 全 部 通过 patch_node 记 有 录 
链 上 的 操作 来 实现 : 
bool_op (<b expr>， «b primary») => <b expr> | 


if («bprimary-.data object.form != OBJECTJUMPCODE) 
to jump code (<b primary».data object); 
<b expr> +- (data object) { 
.form = OBJECTJUMPCODE; 
.t chain = merge (<b expr>.t_chain, 
<b primary> .t_chain) ; 
.f chain = merge (<b expr>.f chain, 
<b primary>.£ chain); 
.condition = <b primary>.condition; } 


process not (<primary>) => <factor> 


negate («primary».data object) 
«factor» — the updated DATAOBJECT record 


) 


compare () 用 CMP 元 组 来 实现 关系 运算 符 并 创建 一 个 DATAOBJECT 记 录 来 描述 跳 转 代码 格式 中 的 
结果 : 
compare (<a expr,», «relational op», «a expr2>) => <b primary> 
{ 
Check types of <a exp» and «a expr;» for compatibility 
generate(CMP, «a expr;».data object, 
<a expr;».data object, dummy); 
«b primary» + (data object) { 
.form - OBJECTJUMPCODE; 
.t chain - NULL; 
.f chain - NULL; 
.condition = complement («relational op» .op. operator); ) 


为 处 理 短路 计算 布尔 运算 符 ， 我 们 在 DATAOBJECT 记 录 中 添加 了 一 些 扩 展 ， 由 此 带 来 的 特殊 情况 需 
要 使 用 b_assign() 例 程 来 处 理 。 因 为 图 12-13 中 赋值 产生 式 实际 上 不 区 分 布尔 表达 式 和 其 他 表达 式 ， 所 
以 该 例 程 的 处 理 过 程 描述 可 以 简单 地 通过 合并 标准 赋值 动作 例 程 来 得 到 : 
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b assign (<var>, <b expr>) 


if (<b expr>.data_object.form == OBJECTJUMPCODE) 
from jump code(«bexpr».data object, 
«var».data object . addr) ; 
else if (<b expr>.data_object . negated) 
generate (NOT, <b expr> .data object, 
<Var>.data object, ""); 
else 
generate (ASSIGN, «bexpr».data object, 
«var-.data object, ""); 
) 


这 里 处 理 上 f 和 while 语 句 所 需 的 语义 记录 和 我 们 在 本 章 开 始 看 到 的 略 有 不 同 ， 因 为 我 们 现在 考虑 的 
是 patch_node 链 表 而 不 是 标号 。 | 


struct if stmt { 
patch node *out list, *else list; 
}; 


struct while stmt { 
string top tuple; 
patch_node *out_list; 
}; 


start if(void) => if 


if «— (if stmt) { 
.out list = NULL; 
.eise list - NULL; ) 
) 


if test (if, <bexpr>) => if 
{ 
Check that <b expr> .data cbject .object_type == BOOLEAN 
fall_through_on_true (<b expr>.data_object) 
if.if stmt.else list = «boxpr-.data object. f chain 
if — the updated IFSTMT record 
) 


gen jump( ) 例 程 生成 的 跳 转 代 码 可 以 跳 过 跟 在 then 部 分 后 的 else 或 elsif 部 分 : 


gen jump(if) => if 

i 
Create a new patch node, P, for next tuple number 
if.if stmt.out list = append(if.if stmt .out list, P) 
generate(B, ALWAYS, ?, ""); 
if — the updated IFSTMT record 

} 


在 else 或 elsif 部 分 开始 处 调用 的 patch_else_jumps() 将 补 填 else 1list 链 表 中 的 所 有 元 组 以 跳 转 到 
next tuple number: | | 


patch else jumps (if) 
{ 

backpatch(next tuple number, if.if stut.else_list) ; 
} 


在 全 部 语句 处 理 完 后 ，patch_out_jumps() 将 补 填 out_1ist 链 表 中 的 所 有 元 组 以 跳 转 到 
next tuple number: 


patch out jumps (if) 
{ 

backpatch (next_tuple_number, If.if stmt.out list); 
} 


start while (void) => while 


{ 
L x new label(): 
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generate (LABEL, L, "", 

while — (while stmt) ( 
.七 OP tuple = L; 
.Out list = NULL; } 


m"); 


} 


while test (while, <bexpr>) => while 


{ 


#12 $ 


Check that <b expr>.data_object .object_type == BOOLEAN 
fall_through_on_true (<b expr>.data_object) ; 

while.while stmt.out list = <b expr>.data_object. £ chain 
while — the updated struct while stmt 


) 


我 们 对 finish_while() 很 熟悉 ， 它 基本 上 是 在 if 语句 和 简单 循环 语句 结尾 处 调用 的 例 程 的 组 合 : 


finish while (while) 
{ 


generate (B, ALWAYS, While.while stmt.top label, "") 
backpatch (next tuple number, while.while stmt.out list); 


) 


为 说 明 这 些 例 程 是 如 何 工作 的 ， 我 们 将 布尔 表达 式 
if A <= B and then A >= 0 or else A = 100 then A := 1; end if; 
的 追踪 分 析 结 果 放 在 图 12-14 中 。 再 一 次 地 ， 其 中 仅 包含 了 那些 生成 元 组 或 修改 t_chain 和 f_chain 的 


A. 


Actions 
#compare 


#ftt 

Append 2 to FC 
Backpatch TC to 3 
#compare 
#bool_op 


ent 
Append 4 to TC 


Backpatch FC to 5 
#compare 
#boo0!_ op 


#itt 

Append 6 to FC 
Backpatch TC to 7 
#assign 


#patch_out_jumps 
Backpatch FC to 8 





Generated Code Semantic Stack 


(t chain, f chain, cond) 


1: CMP A.B (null, null, GT) 


| (null, 2,GT) 
2:8GT,? 
(nuil,2,GT) 


3: CMP A,0 (nuit null, LT} (null,2,GT) 


(null,2,LT) 


(4,2,LT) 
4: B GE,? 
2: B GT,5 (4,null,L T) 


5: CMP A,100 (null,null, NE) (4,null,L T) 


(4,null,NE) 
(4,6,NE) 


6: B NE,? 


4: B GE,7 (null,6,NE) 


7: ASSIGN A | 


6: 8 NE,8 (nuli nul, NE) 


图 12-14 三 地 址 短路 计算 布尔 表达 式 的 翻译 过 程 


在 完成 所 有 回填 后 ， 


CMP A,B 
B GT,5 
CMP A,0 
B GE,7 
CMP A,100 


可 从 图 12-14 中 得 到 最 终 的 元 组 是 : 
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6:8 NE,8 
7: ASSIGN 1,A 


我 们 很 容易 看 出 这 些 代码 是 正确 的 。 
练习 


|l. 追踪 在 编译 下 面 程序 片段 时 所 调用 的 语义 例 程 序列 。 给 出 生成 的 元 组 ， 并 标明 生成 它 的 例 程 。 假 设 |、 
J 和 K 均 为 Integer 变 量 。 


a. ifil»Jthen b. ifi»Jthen 
K := I; K := I; 
elsif J > | then elsif J >= | then 
"zd K := J: 
else end if; 
K := 0; 
end if; 


2. 追踪 在 编译 下 面 程序 片段 时 所 调用 的 语义 例 程序 列 。 给 出 生成 的 元 组 ， 并 标明 生成 它 的 例 程 。 假 设 | 
J、Limit 和 Sum 均 为 Integer 变 量 ， 而 A 是 一 个 二 维 Integer 数 组 。 
Sum : = 0; 
| := 0; 
OuterLoop: loop ME 
exit when | > Limit; 
while J <= Limit loop 
exit OuterLoop when A(1,J) = 0; 
Sum := Sum + A(I,J); 
J i= J+ 1; 
end loop; 
end loop; 
3， 追 踪 在 编译 下 面 程序 片段 时 所 调用 的 语义 例 程 序列 。 给 出 生成 的 元 组 ， 并 标明 生成 它 的 例 程 。 假 设 | 
和 Limit 均 为 Integer 变 量 ， 而 B 是 一 个 一 维 Integer 数 组 。 | 479 


Sum := 0; 

for l in 1..Limit loop 
Sum := Sum + Bil); 

end loop; 


4， 写 一 个 包括 others 在 内 的 有 至 少 6 个 标号 选择 的 case 语 句 。 标 号 应 该 包含 区 闻 以 及 单个 值 。 追 踪 在 
编译 你 的 case 语 句 时 所 调用 的 语义 例 程序 列 。 给 出 除了 finish_case() 以 外 的 所 有 动作 例 程 生成 的 
元 组 ， 并 画 出 为 描述 选择 标号 而 创建 的 数据 结构 。 

5， 使 用 跳 转 表 方 法 ， 给 出 finish_case( ) 为 练习 4 中 的 case 语 句 所 生成 的 元 组 。 

6， 使 用 内 联 二 分 搜索 方法 ， 给 出 finish_case( ) 为 练习 4 中 的 case 语 句 所 生成 的 元 组 。 

7， 重 写 用 来 编译 基本 的 loop 和 while loop 的 语义 例 程 概述 和 语义 记录 声明 ， 以 便 采用 回填 而 不 是 符号 
标号 来 处 理 跳 转 地 址 解析 的 问题 (提示 : 参见 在 12.1 节 末尾 有 关 回 填 的 讨论 )。 

8， 重 写 用 来 编译 if 语句 的 语义 例 程 概述 和 语义 记录 声明 ， 以 便 采 用 回填 而 不 是 符号 标号 来 处 理 跳 转 地 址 
解析 的 问题 。 | 

9. HER ERED RREA, loop descriptor MRE- RIE. WERT WES 
成 了 这 些 变化 。 

10， 根 据 总 结 在 图 12-6 中 的 技术 ， 说 明 编 译 器 为 下 面 Ada 程 序 段 中 的 标号 和 goto 语 句 所 做 的 处 理工 作 。 480 

declare 


. begin 
<<L>> 
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11， 使 用 12.6 节 中 的 技术 ， 说 明 下 面 程序 中 重要 的 地 址 区 间 、 异 常 转移 向 量 和 区 间 图 。 解 释 过 程 @ 中 的 
raise 庄 句 以 及 在 Q 中 出 现 的 异常 Constraint_Error 都 是 如 何 处 理 的 。 

procedure P is 
Fault : exception; 
procedure Q is 
begin 

raise Fault; 

exception 


when Fault => ---; 
end Q; 


begin 
Q; 
exception 


when Constraint Error => --:; 
end P; 


12， 使 用 12.6 节 中 的 技术 ,说 明 下 面 程序 中 重要 的 地 址 区 间 、 蜡 常 转移 向 量 和 区 间 图 。 解 释 当 过 程 R 分 
别 在 Q 中 和 P 中 被 调用 时 ， 共 中 的 raise 语 句 是 如 何 处 理 的 。 
procedure P is 
Fault : exception; 
procedure R is 
begin 
raise Fault; 
end R; 
procedure Q is 
begin 
R; 
exception 
when Fault => ---; 
end Q; 
begin 
Q; 
R; 
exception 


when Fault => -- 
end P; 
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13. 在 异常 处 理 特性 和 交互 式 调试 器 之 间 存 在 着 有 趣 的 交互 。 正 常情 况 下 ， 在 发 生 运行 错误 时 调用 这 样 
的 调试 器 。 然 而 ,在 一 个 具有 异常 处 理 特 性 的 语言 中 ， 这 些 错 误 显然 被 当 作 了 预定 义 的 异常 。 因 此 ， 
只 有 在 《预定 义 或 在 程序 中 定义 的 ) 异常 没有 配备 处 理 程序 的 时 候 才 会 调用 这 种 调试 器 。 解 释 为 了 
与 调试 右 交 互 ， 应 该 如 何 修改 12.6 节 中 的 异常 处 理 实现 技术 。 假 定 调试 器 在 被 授予 控制 权时 应 该 带 
有 3 引发 未 经 处 理 的 异常 的 程序 状态 视图 。 
14， 使 用 12.7 节 中 提出 的 技术 ， 针 对 以 下 语句 片段 ， 做 出 像 图 12-12 那 样 的 翻译 过 程 的 追踪 。 
if A and B and then C or else not D then … 482 
15， 使 用 12.7.1 节 中 提出 的 技术 ， 针 对 以 下 语句 ， 做 出 像 图 12-14 那 样 的 翻译 过 程 的 追踪 。 
if A >= C or else not ( C <> A and then B < 77 ) then A :- B; end if; 483 





第 13 章 翻译 过 程 和 函数 


过 程 和 函数 (此 后 通称 为 子 程序 ) 的 翻译 包括 两 个 基本 步骤 : 处 理 声明 和 处 理 调 有 用。 首先， 编译 右 
遇 到 的 是 子 程序 的 声明 。 该 声明 中 包含 有 其 他 的 声明 ， 因 此 在 子 程序 声明 中 将 构建 符号 表 条 目 和 相关 属 
性 记录 。 在 子 程序 声明 以 后 , 即 可 引用 子 程序 且 必 须 用 在 声明 处 得 到 的 属性 信息 来 正确 地 翻译 这 些 引 用 。 
从 子 程序 角度 看 ， 这 些 引 用 称 为 调用 (call)。 因 为 子 程序 调用 中 隐 含 着 控制 转移 及 可 能 伴随 的 参数 ， 所 
以 处 理子 程序 名 字 的 引用 比 处 理 其 他 声明 的 引用 要 复杂 得 多 。 


13.1 简单 子 程序 


13.1.1 声明 无 参 子 程序 
我 们 必须 处 理 以 下 几 种 形式 的 子 程序 声明 。Ada 和 Ada/CS 中 的 过 程 和 函数 具有 不 同 的 语法 形式 ， 它 


们 允许 每 一 种 子 程序 在 声明 时 可 以 推迟 定义 其 过 程 体 描述 。 因 此 ， 在 下 面 的 产生 式 中 ， 可 以 看 到 4 种 子 


程序 声明 有 或 无 过 程 体 的 过 程 ， 有 或 无 函数 体 的 函数 : 


<declaration> — «subprogram spec» «subprogram tail» 


«subprogram spec» — procedure «id» ststart proc [ «formai part» ] 
_» function «designator» sstart proc [ «formal part» } 
return «type name> #return_type 


«subprogram tail» — — ;#end proc spec 
-> is start proc body «decl pt» 
begin «stmts» «exception part» end 
[ <designator> 4check proc id ] ; 
i&tend proc body 


上 述 产生 式 中 的 语义 例 程 使 用 了 一 个 新 的 语义 记录 类 型 SUBPROGRRAM。 此 记录 类 型 的 实例 由 
_ start_proc() 创 建 并 对 所 有 处 理子 程序 声明 的 例 程 可 用 。 


typedef struct subprogram { 
attributes *old current proc; 
id entry st entry; 
string end label; 

} subprogram; 


必须 扩展 attributes 类 型 以 包含 下 面 的 变 体 : 


/* class == SUBPROGRAMNAME */ 
struct { 
level range nesting level; 
string start label; 
address range activation rec size; 
symbol table local decls; 
attributes *parameters; 
struct type des *return type; 
/* -- NULL except for functions */ 
boolean body declared; 
uH | 


普 先 ,我们 考虑 处 理 无 参 过 程 和 函数 所 需 的 语义 例 程 。 我 们 使 用 一 个 称 为 current_proc 的 全 局 变量 ， 
它 包 含 一 个 指针 ， 指 向 当前 正在 处 理 的 最 内 层 子 程序 的 属性 记录 。 
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start proc(«id») => procedure 
{ 
Enter the identifier represented by <id> into the 
symbol table for the current scope. 
Due to the possibility of overloading, it may already 
be present in this scope. 
Save the id entry returned by enter() in subprog entry. 
Let A = (attributes) { 
.Class = SUBPROGRAMNAME : 
.id = subprog entry; 
.id type = NULL; 
.nesting level = current proc.nesting level + 1; 
.start label = ""; 
.activation rec size = CONTROLSIZE; 
.local decls = creasate(); 
.parameters = NULL; 
.return type = NULL; 
.body declared = FALSE; } 


procedure — (subprogram) ( 
.Old current proc - current proc; 
.St entry = subprog entry; 
.end label - ""; ) 

current _proc < A; 


} 


在 被 创建 用 来 描述 一 个 新 子 程序 的 attributes 结 构 里 ， 我 们 用 名 为 CONTROLSI2ZE 的 常量 来 初始 化 
activation rec size 域 。 该 常量 的 值 是 实现 相关 的 ， 它 表示 在 每 个 活动 记录 的 开始 部 位 所 存储 的 控 
制 信息 (参见 9.1.2 节 ) 的 空间 大 小 。( 在 10.2.1 节 描述 的 ) 语义 例 程 var_dec1l( ) 将 使 用 这 个 域 在 处 理 变 
量 声明 时 指派 偏 移 位 置 。 在 声明 每 个 变量 时 ， 将 使 用 current_pProc 结 构 的 activation rec size 域 
获取 -- 个 偏 移 值 送 给 该 变量 的 attributes 记 录 中 的 adqdress 的 var_offset 域 。 为 给 该 变量 分 配 空 间 ， 
我 们 将 它 的 类 型 对 象 所 占 字 节 的 大 小 加 至 current proc.activation rec_size 上 。 


return type («type or subtype>) 
{ 

/* | 
* Set the return type field of the function currently 
* being compiled using the TYPEREF record 
* representing <type or subtype» 
*/ 
current | proc.return type 《一 

«type or subtype> .type ref .object_type 


} 


end proc, spec (procedure) 
( 
/* 
* Called only for subprogram specifications 
* that appear without a body 
*/ 
string start 
start = new label() 
/* 
* A corresponding label tuple will be generated 
* when the body is encountered 
*/ 
Record the label start as current | proc.start label 
Call the symbol table routine set attributes () to 
associate current proc with 


procedure.subprogram.st entry. 
Generate an error message if this call fails because 


st entry already has associated attributes that 
current proc may not overload. 
current proc t- procedure.subprogram.old current proc 





start proc body (procedure) => procedure 
{ 
Take the appropriate actions to make 
current proc.local decls the current scope. 
/* 
* This may require no action if creating a scope 
* automatically does this. Such an implementation 
* is common for languages without packages or a 
* similar feature. 


*/ 
procedure.subprogram.end label = new_label () 
generate (JUMP, procedure.subprogram.end label, "", ""); 
/* 


* Execution of enclosing scope will jump 
* over this procedure body 


*/ 
if (current proc.start label == "") 
current proc.start label - new label(); 
generate(LABEL, current proc.start label, "", ""); 


generate(STARTSUBPROG, current proc.nesting level, 


" " tt ") ; 
procedure — the updated SUBPROGRAM record 
} 


我 们 必须 在 处 理 声明 列表 之 前 生成 STARTSUBPROG 元 组 ， 因 为 Ada/CS 中 的 声明 可 以 导致 有 关 代 
码 的 生成 。 例 如 ， 变 量 的 初始 化 表达 式 和 动态 大 小 的 数组 产生 那些 必须 在 子 程序 体 首部 执行 的 代码 。 如 
果 我 们 正在 处 理 像 Pascal 这 样 声明 部 分 不 会 产生 代码 的 语言 ， 我 们 也 许 会 在 语句 列表 开始 的 时 候 才 生成 
该 元 组 。 我 们 比较 偏爱 这 种 延迟 ， 因 为 它 可 以 避免 修 套 过 程 之 间 出 现 STARTSUBPROG- 
ENDSUBPROG 的 幅 套 对 。 我 们 的 代码 生成 器 要 么 必须 移动 元 组 来 取消 这 种 嵌 套 并 使 过 程 体 保持 连续 ， 
要 么 插入 跳 转 语句 引导 子 程序 体 的 执行 跳 过 嵌 套 在 其 中 的 任何 子 程序 。 


check proc id («id») 


( 
Check that the identifier on top of the semantic 


stack is the name of current proc 


) 


end proc body (procedure) 
( 
Take the appropriate actions to remove 
current proc.local decis as the current scope. 
Call destroy (current _proc.local_decls) , Since any 
names declared within the subprogram must no 
longer be accessible. 
generate (ENDSUBPROG, current proc. activation rec size, 


wa "n = 
, ); 


generate (LABEL, procedure. subprogram.end_label, "", "ny; 
current proc = procedure.subprogram.oid current proc 
} 


13.1.2 调用 无 参 过 程 
无 参 过 程 的 调用 由 可 用 作 语 句 的 过 程 标识 符 组 成 ， 如 下 面 的 产生 式 所 不 : 


«statement» — <id> #simple_proc_stmt 

iE. GIFEsimple_proc_stmt() 首先 必须 核实 <id> 确 实 代表 一 个 过 程 。 然 后 它 使 用 该 标识 符 的 
attriputes 记 录 中 的 其 他 信息 生成 两 个 元 组 。STARTCALL 必 须 最 终 被 翻译 成 分 配 被 调 过 程 活动 记录 
的 代码 ，PROCJUMP 确 定 到 此 过 程 的 实际 的 控制 转移 。 在 讨论 带 参 子 程序 调用 的 13.3 节 里 ， 这 两 个 元 
组 分 别 由 不 同 的 语义 例 程 产 生 ， 在 它们 之 间 将 生成 用 来 处 理 参数 的 元 组 。 

simple proc stmt («id») 


Search for «id» in the symbol table and obtain 
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a reference to its Attributes, A 
Check that A.class == SUBPROGRAMNAME && 
A.return type == NULL 
T = get temporary () 
generate (STARTCALL, T, A.activation rec size, ""); 
generate (PROCJUMP, A. start label, T, nn); 


} 


13.2 向 子 程序 传递 参数 


-- 般 而 言 ， 我 们 在 子 程序 的 活动 记录 中 分 配 空间 来 存放 有 关 参 数 的 信息 。 通 常 ， 调 用 者 在 参数 位 置 
上 存放 某 些 信息 (如 值 、 地 址 或 内 情 向 量 )， 而 被 调 过 程 使 用 这 些 位 置 来 访问 实际 参数 。 什 么 样 的 信息 
应 该 被 传递 依赖 干 实 参 的 类 型 和 参数 传递 的 模式 。 

根据 所 需 的 实现 技术 的 相似 程度 ， 可 以 将 参数 传递 模式 分 组 列表 如 下 : 

。 值 ( 找 贝 )、 结 果 和 值 - 结 有 果 。 

实 参 的 值 被 拷贝 到 形 参 中 ， 或 形 参 的 最 终 值 的 拷贝 被 拷贝 回 实 参 。 

。 引 用 (var) 和 只 读 (in) 

引用 参数 代表 着 实 参 的 地 址 。 对 引用 模式 形 参 的 改变 将 立即 影响 (改变 ) 相应 的 实 参 。 只 读 

参数 只 可 以 读 取 而 不 能 被 改变 。 它 们 经 常 像 引 用 参数 那样 通过 传递 地 址 来 实现 〈 作 为 选择 ， 它 们 

也 可 以 通过 传递 拷贝 来 实现 )。 

。 名 字 、 tans Se 

字 参 数 ， 如 果 需 要 的 话 ， 可 在 每 次 引用 时 重新 计算 。 形 式 过 程 是 作为 参数 传递 给 其 他 过 程 
rmm. 标号 参数 在 事实 上 人 允许 间接 goto 语 句 。 - 

Ada 语 言 的 参数 传递 模式 in、out 和 in out 大 致 对 应 于 只 读 、 结 果 和 值 -结果 。 一 个 in 参 数 可 用 作 局 
部 常量 ， 其 值 由 相应 的 实 参 提供 。 一 个 out 参 数 可 用 作 未 初始 化 的 局 部 变量 ， 其 值 在 子 程序 返回 时 被 传 
送 给 相应 的 实 参 。 一 个 in out 参 数 除了 在 子 程序 调用 时 其 值 可 由 实 参 值 初始 化 以 外 ， 其 余 都 很 像 一 个 
out 参 数 。Ada 语 言 定义 要 求 ， 对 标量 而 言 ， 这 三 种 模式 可 以 分 别 采 用 值 、 结 果 和 值 -结果 方式 来 实现 。 
对 于 非 标量 ， 可 以 通过 实际 拷贝 参数 或 传递 地 址 并 实现 为 引用 参数 等 方式 来 实现 这 些 模式 。 然 而 ， 不 论 
形 参 / 实 参 对 应 如 何 实现 ，in 参 数 必 须 被 当 作 只 读 参 数 来 对 待 。 任 何 依赖 于 非 标量 参数 模式 实现 的 Ada 程 
序 都 是 错误 的 。 

考虑 在 Ada/CS 中 出 现 的 类 型 种 类 : 

。 标量 类 型 〈 整 型 、 实 型 等 ) 

。 数 组 (可 能 带动 态 边界 ) 

8$ 

* 记录 

在 实现 数据 对 象 (常量 、 变量 和 参数 ) 时 ， 必 须 区 分 在 编译 时 一 个 值 是 如 何 引用 的 。 它 可 以 是 : 

。 值 一 一 例如 ， 一 个 显然 的 常量 。 

. 值 的 地 址 〈 普 通 变量 )。 

。 包含 某 个 值 地 址 的 单元 的 地 址 (引用 参数 )。 

我 们 还 必须 记录 一 个 值 是 如 何 被 访问 的 ， 也 就 是 说 ， 它 是 否 能 被 改变 或 仅 允 许 读 访问 。 

我 们 将 引用 和 访问 模式 合 起 来 称 为 访问 数据 (access data)。 在 我 们 的 语义 记录 数据 描述 符 中 弄 清 
椒 这 些 访问 数据 对 生成 正确 的 代码 十 分 重要 。 它 也 使 编译 变 得 容易 ， 例 如 ， 若 不 需要 做 常量 折合 《如 ， 
对 于 字符 串 常量 )， 我 们 可 以 将 常量 作为 只 读 变量 对 待 。 

访问 数据 也 提醒 我 们 在 处 理 数据 对 象 时 要 仔细 。 例 如 ， 一 个 引用 参数 通过 引用 方式 再 次 传递 给 第 一 





个 过 程 时 ， 要 求 在 调用 点 的 代码 和 普通 变量 (RES) 通过 引用 方式 传递 时 的 代码 不 同 。 我 们 只 想 使 用 
一 层 同 接 ， 即 使 是 在 引用 参数 被 再 次 当 作 一 个 引用 参数 而 传递 的 时 候 ， 这 是 因为 ， 第 二 次 调用 的 子 程序 
通常 不 知道 它 的 任何 实 参 所 需 的 准确 的 间接 层次 。 


13.2.1 值 、 结 果 和 值 -结果 参数 


在 值 模式 下 ; 我 们 拷贝 实 参 的 值 并 把 它 看 作 局 部 变量 。 任 何 具有 正确 类 型 的 表达 式 或 值 均 可 被 传递 。 
在 结果 模式 下 ， 将 创建 一 个 局 部 的 未 初始 化 的 变量 。 在 返回 时 ， 该 变量 的 值 将 被 赋 给 实 参 。 只 有 名 
字 ( 即 ， 可 被 用 作 赋 值 目标 的 表达 式 ， 有 了 时 也 称 为 左 值 (1-value)) 可 作为 结果 参数 被 传递 ， 以 便 该 赋 
值 是 合法 的 。 
在 值 -结果 模式 下 ， 我 们 将 实 参 的 值 复 制 到 一 个 局 部 拷贝 中 ,在 返回 时 ， 将 其 拷贝 回 实 参 中 。 再 次 
地 ， 要 求 用 一 个 名 字 作为 对 应 的 实 参 ， 以 便 赋值 是 合法 的 。 
要 求 拷贝 的 参数 模式 的 一 种 实现 方法 是 ， 将 拷贝 每 个 值 的 代码 放 在 被 调 过 程 里 。 调 用 者 像 在 引用 模 
式 中 那样 传递 地 址 ， 位 于 过 程 的 首部 或 尾部 的 代码 将 实际 完成 这 些 拷 贝 。 在 结果 和 值 -结果 模式 下 ， 需 
要 两 个 截然 不 同 的 局 部 数据 对 象 : 实 参 的 地 址 和 参数 值 的 局 部 拷贝 。 对 值 模式 而 言 ， 我 们 可 以 用 其 中 的 
一 个 对 象 。 那 个 拷贝 值 可 以 重 写 ( 回 ) 被 传递 的 地 址 。 也 有 可 能 让 调用 过 程 做 拷贝 工作 。 对 结果 或 值 - 
结果 模式 而 言 ， 活 动 记录 必须 被 重新 编排 ， 以 便 调用 者 而 不 是 被 调 者 从 栈 中 清除 实 参 。 
下 面 ， 我 们 依次 考虑 各 种 类 型 : | 
。 对 标量 来 说 ， 我 们 通常 传递 实 参 的 地 址 并 将 一 个 值 复制 到 或 复制 出 局 部 拷贝 ， 尽 管 对 值 模式 而 言 ， 
我 们 通常 只 是 简单 地 传递 实 参 值 本 身 ， 因 为 这 样 做 不 会 比 仅 传递 地 址 的 开销 更 多 。 针 对 在 过 程 返 
回 时 两 个 涉及 将 值 拷贝 出 来 的 情况 ， 我 们 必须 注意 实 参 类 型 是 形 参 类 型 的 限制 子 类 型 的 可 能 性 。 
在 这 种 情况 下 ， 我 们 必须 确保 送 给 实 参 的 那个 拷贝 回来 的 值 是 其 子 类 型 的 一 个 合法 值 。 这 要 么 涉 
及 在 被 调 过 程 中 对 与 其 地 址 一 起 传递 的 范围 信息 进行 检查 ; 要 么 在 返回 后 ， 在 调用 点 立即 进行 相 
关 检 查 。 
。 对 数组 来 说 ， 我 们 将 (固定 大 小 的 ) 内 情 向 量 作 为 实 参 传递 。 通 常 ， 这 个 描述 符 只 是 指向 数组 数 
据 的 指针 ， 数 组 的 类 型 由 它 的 类 型 描述 符 来 描述 ， 该 描述 符 要 么 在 编译 时 已 完全 知晓 (对 常量 边 
界 的 数组 而 言 )， 要 么 其 位 置 (静态 层次 和 在 该 活动 记录 中 的 偏 移 ) 在 编译 时 可 知 (对 动态 边界 数 
组 而 言 )。 对 于 未 约束 或 适应 性 数组 一 一 即 ， 不 完全 确定 的 形式 数组 参数 (通常 ， 数 组 维 数 、 基 类 
型 和 下 标 类 型 已 明确 地 指出 ， 但 边界 范围 未 确定 ) 一 一 除了 传递 一 个 指向 数组 数据 空间 的 指针 ， 
还 必须 传递 一 个 指向 含有 实 参 边界 的 类 型 描述 符 的 指针 。 一 个 过 程 在 被 调用 时 ， 使 用 有 关 的 边界 
信息 为 这 个 数组 参数 的 局 部 拷贝 分 配 空间 ; 然后 ， 此 过 程 拷贝 该 数组 (如 果 需 要 )， 并 初始 化 它 自 
己 的 局 部 内 情 向 量 。 在 过 程 返 回 时 ， 如 果 需 要 ， 可 以 使 用 这 两 个 内 情 向 量 将 局 部 数组 拷贝 回 实 参 。 
然而 ， 对 值 模式 而 言 ， 仅 需要 单个 的 内 情 向 量 ; 它 可 被 局 部 拷贝 的 内 情 向 量 重 写 。 
。 大 小 可 动态 变化 的 字符 串 需 要 一 个 描述 符 。 在 Ada/CS 中 ， 这 样 的 描述 符 就 是 串 的 地 址 ， 而 串 的 大 
小 是 作为 串 本 身 的 一 部 分 而 存放 的 。 因 为 Ada/CS 中 串 的 这 种 约束 特征 ， 所 以 这 种 简单 方法 其 实 是 
可 行 的。 为 支持 更 一 般 的 字符 串 特 性 (例如 允许 子 串 作为 结果 参数 ) ， 一 个 描述 符 除了 其 地 址 以 外 
还 必须 包含 串 长 ， 如 图 13-1 所 示 。 


[Address | ^ Swngiengh — 
图 13-1 字符 串 参 数 的 描述 符 


对 于 值 模式 ， 我 们 可 以 传递 描述 符 本 身 。 对 于 结果 和 值 -结果 模式 ， 我 们 可 以 传递 描述 符 的 
地 址 ， 因 为 字符 串 的 赋值 可 以 改变 描述 符 的 内 容 。 使 用 描述 符 ， 我 们 可 以 和 前 一 种 情况 一 样 ， 将 
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值 复制 到 局 部 拷贝 或 从 局 部 拷贝 中 复制 出 来 。 

作为 一 种 优化 ， 我 们 可 以 在 返回 时 将 局 部 描述 符 (不 是 字符 串 本 身 ) ANAKE. FARR 
局 部 拷贝 通常 在 返回 时 即 消 失 。( 不 能 对 数组 做 此 种 优化 ， 因 为 分 配 在 活动 记录 中 的 局 部 数组 的 所 
有 空间 在 返回 时 将 被 弹出 栈 。) 
。 记 录 将 按 标量 方式 处 理 ， 因 为 它们 也 是 大 小 固定 的 ， 但 通常 更 好 的 方法 是 在 值 模 式 下 传递 记录 的 
地 址 并 让 被 调 者 拷贝 该 记录 。 这 种 技术 使 得 调用 更 加 紧凑 ， 尤 其 是 在 机 器 没有 多 字 (multiword) 
传送 指令 的 时 候 。 即 使 是 动态 记录 〈 即 那些 带 有 一 个 动态 类 型 的 域 的 记录 ) 也 不 需要 传递 显 式 的 
类 型 描述 符 ; 运行 时 的 类 型 描述 符 ， 如 果 有 的 话 ， 将 被 放 在 某 个 编译 时 已 知 且 被 调 过 程 可 见 的 位 
置 上 。 


13.2.2 引用 和 只 读 参 数 


通常 ， 我 们 传递 引用 或 只 读 参 数 的 地 址 : 
* 对 标量 值 而 言 ， 其 引用 模式 的 处 理 是 在 参数 表 中 传递 实 参 的 地 址 ， 在 只 读 模 式 下 ， 我 们 也 可 以 传 
递 地 址 ， 但 有 时 当 实 参 是 临时 变量 〈 例 如 ， 在 F(A+B) 中 ) 时 ， 这 种 办 法 就 显得 不 是 很 方便 。 更 进 
一 步 地 ， 拷 贝 标量 的 值 并 不 比 传递 它 的 地 址 开销 更 多 ， 而 且 直接 访问 比 间接 访问 要 快 。 将 只 读 标 
量 参数 实现 为 只 读 局 部 变量 ， 可 能 是 最 好 的 办 法 了 。 事 实 上 ，Ada 语 言 要 求 通过 做 实际 的 拷贝 来 
实现 只 读 的 标量 In 参数 。 

。 对 数组 而 言 ， 我 们 传递 内 情 向 量 的 地 址 ， 或 更 简单 地 传递 内 情 向 量 本 身 。 如 果 数 组 没有 内 情 问 量 ， 
我 们 将 创建 一 个 内 情 向 量 。( 作为 一 种 优化 ， 除 了 未 约束 数组 以 外 ， 我 们 也 许 会 忽略 其 他 所 有 数组 
的 内 情 向 量 .) 

* 字符 串 的 处 理 通过 传递 串 描 述 符 的 地 址 来 实现 

。 我 们 传递 记录 的 地 址 。 再 次 重申 ， 即 使 是 动态 记录 也 不 需要 显 式 的 类 型 描述 符 。 


13.2.3 ”处理 参数 声明 的 语义 例 各 


Ada/CS 语 言 和 Ada 一 样 允许 参数 的 传递 采用 任意 三 种 模式 之 一 : in. in out 和 out， 它 们 在 13.2 节 中 
已 被 定义 过 。 在 过 程 体 中 ， 访问 参数 和 访问 变量 的 方式 一 样 ， 因 此 ， 必 须 把 它们 添加 到 符号 表 中 。 在 每 
个 参数 的 符号 表 条 目 中 必须 给 出 它 的 传递 模式 以 便 生成 访问 它 的 合适 的 代码 。 我 们 还 必须 将 所 有 参数 的 
属性 记录 按 它们 声明 的 次 序 链接 在 一 起 ， 以 便 在 处 理子 程序 的 调用 中 使 用 它们 。 为 此 ， 参 数 名 字 的 属性 
定义 如 下 : 


/* class == PARAMNAME */ 

struct { 
level_range param_level; 
address range param offset; 
enum parameter mode mode; 
attributes *next param; 

}; 


其 中 ， 


enum Parameter mode { INMODE, OUTMODE, INOUTMODE ): 


参数 声明 的 产生 式 如 下 : 


<formal part> — (<parameter declaration> 
{ ; <parameter declaration» } ) 
«parameter declaration» 一 «id list» : «mode» «type or subtype» #param_dec! 
«mode- — [in] set in 
一 Out #set_out 
— in out #set_in_out 
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我 们 需要 一 个 新 的 语义 记录 选项 来 保存 当前 处 理 的 参数 的 传递 模式 : 


struct mode { 
enum parameter mode mode kind; 
}; 


用 来 处 理 模 式 规范 的 语义 例 程 是 相当 简单 的 : 
set_in(void) => <mode> 


{ 
«mode» < (mode) { .mode kind = INMODE; ) 
} 493 
set_out (void) => <mode> | 
{ 
«mode» « (mode) { .mode kind = OUTMODE; } 
) 


set in out(void) => «mode» 


«mode» < (mode) { .mode kind = INOUTMODE; ) 


param decl (<id list>, «mode», «type or subtype») 
( 
for (each identifier in <idlist>) ( 
Call enter() to put the identifier in the symbol 
table referenced by current proc.local decls. 
if (it is already there) { 
generate an appropriate error message 
continue; /* go on to next identifier */ 
) 
Allocate storage for the parameter, recording 
its offset in the local variable offset. (The 
size of thé block of storage to allocate is 
calculated according to how parameters of 
«type or subtype».type ref.object type and «mode» 
are implemented.) 


The following expression describes the attribute 
record to be created for the parameter: 
(attributes) ( 
.class = PARAMNAME; 
.id type = <type or subtype>.type_ref. object _ type; 
.id = the id entry returned by enter(): 
.param level = current proc. .nesting level; 
.param offset = offset; 
.mode = <mode>.mode.mode kind; 
.next param = NULL; ) 


In addition to associating this attribute record 
with the identifier just entered into the symbol 
table, also add it to the end of the list 
referenced by current proc.parameters 
(constructed using next param fields). 


} 
) 


需要 修改 语义 例 程 new_name( ) 以 便 允 许 将 参数 按 变 量 方式 来 解释 。PARAMNAME 作 为 必须 处 理 的 另 [494| 
一 种 选择 被 添 入 以 便 企 这 种 情况 下 生成 一 个 DATAOBJECT 记 录 。 address 记 录 addr 中 的 var_ level fil 
var offset 域 从 param level 和 param _offset 中 取 值 。 根据 参数 类 型 及 其 模式 所 选择 的 实现 方式 ， 
indirect 和 read only 标志 被 设置 为 合适 的 值 。 例 如 ， 如 果 参 数 模式 是 INMODE ，PARAMNAME 将 总 是 设 
置 read_on1ly 标 志 为 TRUE 。indirect 的 值 取决 于 将 实 参 用 地 址 还 是 拷贝 来 表示 。 | | 

因为 子 程序 的 参数 列表 是 由 每 个 参数 的 属性 记录 的 链接 表 来 表示 ， 所 以 在 调用 例 程 
end subprog_body() 释 放 过 程 的 符号 表 的 时 候 必须 要 特别 往 意 。 这 些 属性 记录 不 应 该 在 这 个 时 候 就 释 
- 放 掉 ， 因 为 在 处 理 过 程 调用 的 时 候 还 必须 使 用 它们 所 包含 的 那些 信息 。 我 们 必须 在 从 符号 表 中 删除 它们 
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之 前 拷贝 它们 ， 或 在 调用 符号 表 例 程 destroy( ) 前 以 某 种 其 他 方式 对 它们 加 以 保护 。 


13.3 处 理子 程序 调用 和 参数 表 


正如 我 们 在 第 11 章 中 所 讨论 的 , Ada 和 Ada/CS 中 描述 子 程序 调用 的 语法 和 数组 引用 的 语法 是 相同 的 。 
这 两 种 不 同 的 特性 必须 通过 语义 例 程 name_Plus_1ist() 来 加 以 区 别 。 然 而 ， 对 于 本 节 中 那些 处 理子 程 
序 调用 的 语义 例 程 来 说 ， 它 们 的 调用 好 像 是 由 语法 直接 触发 的 ， 这 同 Pascal 中 的 情况 一 样 。 出 于 讨论 的 
目的 ， 我 们 同时 简化 了 子 程序 名 字 的 语法 ， 仅 允许 简单 的 标识 符 。 我 们 所 提出 的 语义 例 程 仅 适 用 于 过 程 
而 非 函 数 ; 当然 ， 为 处 理 函数 而 对 它们 进行 的 扩展 也 应 该 是 显而易见 的 。 

过 程 调 用 的 产生 式 如 下 : 


«statement» — «proc id» [ «parameters» ] #gen_proc_jump 
«proc id» 一 «id» s£start proc stmt 
«parameters» — ( «expression» ffprocess param 

(, «expression» process param } ) 


这 里 需要 一 个 新 的 语义 栈 记 录 来 保存 在 处 理 参数 的 时 候 (如 果 有 的 话 ) 那个 被 调用 的 子 程序 的 有 关 信 息 : 


struct proc call ( 
string start label; 
attributes *parameters; 
address AR ref; 

}; 


start proc stmt() 被 调用 来 处 理 一 个 ID 记 录 ， 将 其 解释 为 过 程 名 并 产生 相应 的 PROCCALL 记 了 录 。 
AR_ref 域 保存 正 被 调用 的 子 程序 的 活动 记录 的 引用 。 在 处 理 过 程 调用 时 ， 用 它 来 填写 参数 信息 。 


start proc stmt («id») => «proc id» 
i | 
Search for «id» in the symbol table and obtain 
a reference to its attributes, A 
Check that A.class == SUBPROGRAMNAME 
T = get temporary () 
«proc id> «— (proc call) I 
.Start label = A.start label; 
.parameters 二 A.parameters; 
.AR ref = T; } 
generate (STARTCALL, T, A.activation rec size, ""); 
) | 
STARTCALL 限 定 过 程 调用 序列 的 开始 ， 因 此 它 允 许 函 数 调用 可 以 作为 实 参 表达 式 的 全 部 或 一 部 分 
出 现 。 在 例 程 process_pParam( ) 检 查实 参 和 相应 的 形 参 类 型 是 兼容 的 之 后 ， 它 为 每 个 传递 给 子 程序 的 
参数 生成 合适 的 元 组 : 
process param(<procid>, <expression>) => «proc id> 
{ 
Verify that the <expression>.data_object .object_type 
matches the type of the first parameter on the list 
«procid».proc call.parameters (Generate a 
"Too many actual parameters" error message if this 
parameter list pointer is NULL.) 
If the parameter mode requires an L-value actual 
parameter (OUTMODE or INOUTMODE), verify that the 
actual parameter describes a legal L-value l 
(constants, expressions, and read-only variables 
not allowed) 
Set op to REFPARAM, COPYIN, COPYOUT or COPYINOUT, | 
depending on how the parameter is to be transmitted. 
generate(op, «expression».data object, — 
«proc id» .proc call.parameters.param offset, 
«proc id».proc call.AR xef); 
«proc id».proc call.parameters = 
«proc id-.proc call.parameters.next param 
«proc id» < the updated struct proc call 
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gen_proc_jump( ) 检 查 是 否 已 提供 了 足够 的 参数 ， 然 后 后 生成 PROCJUMP 元 组 ， 该 元 组 确定 到 被 
调 过 程 的 控制 转移 : 


gen proc jump («proc id») 
i 
if (<procid>.proc_call.parameters != NULL) 
Generate a "Too few actual parameters" error message. 


generate (PROCJUMP, «procid».proc call.start label, 


«proc id».proc call.AR ref, ""); 
} 


示例 : 带 参数 的 过 程 调 用 


假设 一 个 Ada/CS 程 序 包含 以 下 声明 : 


i, J, K: Integer; 
procedure P (X : in Integer; Y : in out Integer) is 


假设 P 的 婴 套 层次 为 2 且 CONTROLSIZE 是 3， 因 此 ，X 的 偏 移 就 是 3，Y 的 偏 移 就 是 4， 并 且 P 的 
activation rec_size 是 5。 针 对 该 过 程 声明 将 生成 如 下 元 组 (产生 这 些 元 组 的 语义 例 程 的 名 字 也 一 
并 给 出 ); 

start_proc_body () : (STARTSUBPROG, 2) 


eval _binary(): | (MULTI, X, J, t1) 
assign(): (ASSIGN, t1, INTEGERSIZE, Y) 


end subprog body () : (ENDSUBPROG, 5) 
~ ~~ 5 is activation rec size for P 


过 程 调 用 P(I+JK) 所 生成 的 元 组 可 能 是 : 
start proc stmt (): (STARTCALL, t2, P.activation rec size) 


eval binary(): (ADDI, I, J, t3) 
process param(): (COPYIN, t3, 4, t2) 
-一 一 一 第- 一 个 参数 的 偏 移 是 4 
process_param(): (COPYINOUT, K, 5, t2) 
一 一 第 二 个 参数 的 偏 移 是 5 


gen proc jumpO: (PROCJUMP, P.start label, t2) 


13.4 子 程序 调用 


在 本 节 里 ， 我 们 将 查看 另外 一 些 有 关子 程序 调用 的 实现 相关 的 细节 ， 这 些 细节 是 从 诸如 
STARTSUBPROG 和 ENDSUBPROG 这 样 的 元 组 中 生成 代码 的 时 候 所 必需 的 。 


13.4.1 保存 和 恢复 寄存 做 


子 程序 使 用 的 寄存 器 在 穿越 该 子 程序 中 其 他 的 调用 时 必须 要 加 以 保存 ， 因 为 被 调用 的 其 他 子 程序 可 
以 使 用 同样 的 寄存 器 而 因此 覆盖 它们 原来 包含 的 任何 值 。 选择 用 来 保存 寄存 器 的 方法 将 影响 正常 过 程 的 
调用 和 返回 以 及 处 理 非 局 部 9oto 或 异常 的 时 空 代 价 。 某 些 RISC 体 系 结构 将 寄存 器 自动 保存 作为 过 程 调 
用 指令 的 一 部 分 ， 但 大 多 数 体系 结 构 要 求 显 式 的 保存 和 恢复 指令 。 我 们 面临 的 一 个 抉择 是 ， 究竟 选择 那 
此 调用 者 正在 使 用 的 寄存 器 (通常 ， 仅 有 少数 几 个 )、 被 调 者 可 能 修改 的 寄存 器 (经常 有 很 多 )， 还 是 所 
有 的 寄存 器 用 于 保存 与 恢复 。 我 们 面临 的 另 一 个 抉择 是 ， 究竟 选择 调用 者 还 是 被 调 者 来 进行 寄存 器 的 保 
存 和 恢复 。 假 设 过 程 在 不 止 一 个 地 方 被 调用 ， 那么 让 被 调 者 执行 这 些 操作 将 会 使 代码 空间 效率 更 高 。 

我 们 将 讨论 在 图 13-2 中 列 出 的 6 种 方法 。 如 果 其 他 的 情况 彼此 相当 的 话 ， 我 们 可 能 比较 偏爱 左手 边 
的 列 (它们 保存 很 少 的 寄存 器 ) 和 第 一 行 中 的 栏目 (不 需要 为 每 个 调用 复制 代码 )。 然 而 ， 其 他 的 情况 
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并 非 彼此 相当 。 无 论 选择 哪 一 种 方法 加 以 实现 ， 我 们 必须 保证 过 程 调用 和 返回 都 是 快速 的 (它们 经 常 发 
生 ， 因 此 效率 是 很 重要 的 )， 而 且 实现 的 方式 可 以 支持 非 局 部 goto 和 异常 的 传播 (如果 需 要 的 话 )。 


调用 者 的 | 被 调 者 的 所 有 的 
寄存 器 寄存 器 寄存 器 


被 调 者 保存 | 1 | 3 | 5 /-— 
2 ] 4 | 6 | 





调用 者 保存 | 
图 13-2 可 供 选 择 的 寄存 器 保存 方法 


O 对 于 被 调 者 保存 调用 者 的 寄存 器 ， 调 用 指令 必须 包括 有 关 正 在 使 用 的 寄存 器 的 描述 〈 或 者 是 位 
向 量 ， 也 称 位 图 ; 或 者 是 字 节 向 量 )。 编 译 器 可 以 在 处 理 过 程 调 用 点 的 地 方 创建 其 中 的 一 种 。 因 为 测试 
位 向 量 中 的 每 一 位 较 复杂 ， 所 以 这 种 方法 仅 在 有 保存 /恢复 寄存 器 的 硬件 指令 时 才 有 用 ， 这 样 的 硬件 指 
令 取 位 向 量 和 寄存 器 保存 区 的 地 址 来 完成 所 有 的 工作 。 目 前 某 些 机 器 中 存在 着 这 样 的 指令 。 字 节 向 量 在 
某 种 程度 上 可 以 被 更 有 效 地 访问 ， 但 如 果 仅 用 于 保存 所 有 寄存 器 (方法 5)， 它 还 可 以 更 快 一 些 。 

(2) 对 调用 者 来 说 ， 保 存 它 自己 的 寄存 器 并 在 过 程 返回 时 恢复 它们 是 件 很 简单 的 事 。 然 而 ， 如 果 一 
个 过 程 ， 它 返回 的 位 置 不 是 跟 在 调用 后 面 的 代码 (例如 ， 通 过 goto 或 传播 异常 返回 的 )， 那 么 它 就 必须 
通过 寻找 恢复 代码 (或许 通过 返回 地 址 ) 并 勉强 地 执行 该 代码 恢复 寄存 器 。 

(3) 编译 器 知道 被 调 者 用 于 非 易 变 临时 变量 的 寄存 器 一 一 但 这 仅 在 过 程 已 完全 翻译 且 代 码 已 生成 的 
时 候 。 因 为 寄存 器 必须 在 过 程 开 始 时 加 以 保存 ， 所 以 在 过 程 的 开始 代码 中 可 能 有 一 个 待 回 秆 的 跳 转 可 跳 
到 代码 最 后 ， 那 里 存放 过 程 保存 代码 ， 且 跟随 其 后 的 是 跳 到 实际 过 程 代码 开始 的 跳 转 语句 。 在 VAX 机 器 
上 ， 编 译 器 仅 回 填 过 程 的 第 一 个 字 单 元 以 包含 过 程 使 用 的 寄存 器 的 位 向 量 。 过 程 调 用 指令 使 用 那个 位 图 
来 保存 合适 的 寄存 器 。 在 活动 记录 中 也 放置 了 该 位 图 的 一 个 拷贝 。 过 程 返回 指令 再 次 使 用 该 位 图 来 恢复 
寄存 器 。 | m 

(4) 调用 者 知道 被 调 者 打算 使 用 哪些 寄存 器 的 惟一 方法 是 采用 位 图 技术 ， 就 像 在 VAX 机 器 上 所 用 的 
那样 。 位 图 仅 在 有 硬件 支持 时 才 有 效 。VAX 上 的 方法 可 被 认为 是 符合 方法 3 或 方法 4 的 。 纯 粹 的 方法 4 技 
术 可 能 会 使 用 在 方法 1 中 提 及 的 保存 /恢复 寄存 器 的 指令 。 仅 保存 被 调 者 所 需 的 寄存 器 将 使 异常 传播 和 非 
局 部 goto 复 杂 化 ; 动态 链 乱 中 的 每 个 活动 记录 都 必须 被 检查 ， 而 且 保 存在 记录 中 的 寄存 器 值 也 必须 被 恢 
复 。 因 此 ，AR 必 须 不 仅 要 指明 那些 旧 值 ， 还 要 指明 那些 已 被 保存 的 寄存 器 。 许 多 FORTRAN 的 实现 使 用 
方法 3。 在 这 些 实现 中 ， 非 局 部 geto 没 有 造成 什么 特别 的 问题 ， 因 为 在 FORTRAN 中 不 允许 它们 存在 。 
相反 地 ， 可 以 使 用 标号 参数 ， 但 也 只 允许 一 层 的 返回 。 也 就 是 说 ， 你 可 以 传递 一 个 标号 常量 ， 而 不 是 
个 标号 参数 。 2 

(5) 对 被 调 者 来 说 ， 保 存 所 有 的 寄存 器 很 容易 ， 特 别 是 当 它们 只 有 几 个 时 〈 如 在 PPP-11 机 器 上 )， 
PDP-11 的 原始 C 编 译 器 生成 过 程 的 开头 和 结尾 代码 以 保存 三 个 非 易 变 的 通用 寄存 器 。 如 果 寄 存 器 是 可 寻 
址 的 ， 那 么 这 个 代码 可 能 会 使 用 循环 ， 但 一 个 展开 的 版 本 将 更 有 效率 。( 实际 上 ，C 语 言 生成 一 个 简短 的 
实用 例 程 调用 来 执行 实际 的 保存 和 恢复 ， 这 种 技术 以 最 小 的 时 间 开销 来 节约 代码 空间 。) 

(6) 调用 者 也 可 以 很 容易 地 保存 所 有 的 寄存 器 。 由 于 调用 在 大 多 数 程序 中 相当 常见 ， 因 此 在 这 里 也 
很 可 能 优先 使 用 一 个 实用 例 程 来 节省 代码 空间 。 当 所 有 的 寄存 器 被 保存 后 ， 非 局 部 goto 和 传播 的 异常 仅 
需要 恢复 原来 的 寄存 器 集 。 | | 


13.4.2 子 程序 的 入 口 和 出 口 


现在 ， 我 们 考虑 子 程序 调用 和 子 程序 返回 的 机 制 。 如 果 使 用 块 级 的 活动 记录 ， 那 么 这 里 的 例 程 同样 
适用 干 块 的 入 口 和 出 口 。 首 先 ， 我 们 给 出 一 个 方法 5 的 算法 。 活 动 记录 必须 包含 存放 过 程 调用 信息 的 位 
置 。 它 的 一 般 形式 如 图 13-3 所 示 。 
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调用 者 的 返回 地 址 
| 过 程 栈 的 顶部 
返回 值 (如 果 正 被 调用 的 是 函数 ) 


图 13-3 活动 记录 布局 示意 图 


假设 我 们 正在 调用 一 个 在 词法 层 i 中 声明 的 过 程 。 在 过 程 被 调用 前 ， 调 用 者 : 

。 压 人 空间 以 保存 | 返回 值 (如 果 正 被 调用 的 是 函数 )、 过 程 的 stack_top 值 、 返 回 地址 、 显 示 表 

。 计算 每 个 实 参 并 将 它们 压 入 栈 。 

。 重 置 调用 者 的 局 部 stack_top 指 向 正在 建立 的 新 的 活动 记录 底部 。( 函数 返回 值 因 此 可 以 形象 地 
表示 在 被 调用 的 例 程 的 AR 的 下 面 (below )。 然 而 ， 如 果 操 作 系统 中 断 在 调用 过 程 中 发 生 ， 最 好 不 
要 在 由 硬件 栈 寄 存 器 定义 的 栈 底 之 上 留 有 任何 重要 信息 ， 否 则 ， 中 断 将 破坏 该 信息 。) 

。 把 这 个 已 更 新 的 stack_top 值 放 在 某 个 已 知 的 全 局 通信 位 置 (如 S) 中 。 

。 设 置 返回 地 址 并 调用 该 过 程 。 

在 被 调用 后 ， 该 过 程 即 被 调 者 (callee): 

。 保 存 当 前 寄存 器 保存 区 的 寄存 器 值 (不 包括 显示 表 寄 存 器 ， 它 们 被 保存 在 显示 表 交 换 区 中 )。 

。 从 全 局 的 S 处 〈S 指 向 活动 记录 的 开始 位 置 ) 和 已 知 的 过 程 活动 记录 的 固定 大 小 来 计算 它 的 局 部 
stack top. 

。 在 显示 表 交 换 区 中 保存 display[i] 的 当前 值 ， 其 中 i 是 过 程 的 词法 层次 。 

。 设 置 Gisplay[i] 以 指向 其 活动 记录 的 开始 位 置 ( 保 存在 S 中 )。 

。 如果 需 要 的 话 ， 使 用 内 情 向 量 和 作为 实 参 传人 的 地 址 来 按 值 拷贝 数组 和 记录 。 

。 如 果 需 要 的 话 ， eck top 来 分 配 动态 数组 。 

在 过 程 要 退出 时 ， 

° pese 寄存 器 的 值 

。 从 显示 表 交 换 区 恢复 先前 aisplayfi] 的 值 。 

。 跳 到 调用 者 的 返回 地 址 。 

| 函数 的 返回 值 位 于 调用 者 栈 的 顶部 。 如 果 使 用 了 块 级 分 配方 式 ， 那么 在 每 个 块 入口 和 出 口 处 ， 和 过 
程 调用 /返回 情况 一 样 ， 需 压 人 和 弹出 活动 记录 并 更 新 和 恢复 显示 表 寄 存 器 。 

更 常见 的 是 ， 即 使 在 有 局 部 块 时 ， 也 可 以 使 用 过 程 级 的 分 配方 式 。 在 这 种 情况 下 ， 在 块 的 人 只 和 出 

口 处 需要 以 下 动作 : | | 

块 入 口 

。 从 外 围 块 或 过 程 中 拷贝 stack_top 的 值 到 这 个 块 的 局 部 stack_top 中 。 


AR 的 开始 
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对 于 每 一 个 在 块 中 分 配 的 动态 数组 ， 

(a) 计算 数组 的 边界 和 所 需 空间 。 | 

(b) 在 栈 上 压 人 所 需 空间 并 更 新 局 部 stack_top。 

(c) 更 新 数组 的 内 情 向 量 。 

块 出 口 

。 不 需要 做 任何 事 ! 

块 的 出 口 不 需要 做 任何 工作 ， 因 为 在 其 退出 后 它 的 外 围 块 的 局 部 stack_top 就 会 变 成 活跃 的 。 这 种 
方案 还 可 以 很 容易 地 做 到 : (通过 goto 或 exit 语 句 ) 立刻 离开 许多 块 。 

本 节 中 使 用 的 过 程 调用 模型 假设 ， 被 调 者 保存 并 稍 后 恢复 所 有 的 寄存 器 。 选 择 调用 者 还 是 被 调 者 来 
保存 和 恢复 寄存 器 以 及 保存 哪些 寄存 器 均 受 到 代码 大 小 、 速 度 和 复杂 性 等 因素 的 影响 。 前面 的 模型 随时 
可 以 适应 所 选择 的 任何 保存 /恢复 机 制 。 

使 用 该 模型 ， 调 用 者 必须 分 配 大 部 分 活动 记录 ， 因 为 实 参 是 由 调用 者 计算 的 。 另 一 种 可 选 的 组 织 形 
式 将 实 参 放 在 AR 下 面 属于 调用 者 的 部 分 栈 里 。 这 种 方法 在 为 过 程 调用 及 相关 的 AR 栈 操作 提供 硬件 (或 
微 代码 ) 支持 的 机 器 上 很 常见 。 例 如 ，VAX 机 器 的 指令 集 包括 一 个 能 完成 大 多 数 过 程 入 口 和 出 口 工 作 的 
功能 强大 的 过 程 调 用 指令 。 访 指令 提供 额外 的 指针 指向 AR， 以 便 被 调 者 不 需要 知道 已 被 保存 的 寄存 器 
占用 多 少 空 间 。 这 种 AR 的 布局 如 图 13-4 所 示 。 

栈 顶 








局 部 数据 、 显 示 表 交换 区 、 
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寄存 器 保存 区 
调用 者 的 返回 地 址 


实际 过 程 参数 


图 13-4 VAX 机 器 上 活动 记录 的 布局 图 


栈 顶 、 帧 指针 和 变 元 指针 均 为 特殊 的 硬件 寄存 器 。 帧 (frame) 是 活动 记录 的 另 一 个 称谓 。 调 用 者 将 
实 参 或 变 元 (argument) 压 入 栈 中 并 发 出 命令 calls argcount,procedure (callis 中 的 s 代 表 栈 
(stack) )。 过 程 的 入 口 点 是 一 个 位 图 ， 它 指出 过 程 使 用 了 哪些 寄存 器 。calls 指 令 压 入 argcount 和 返回 地 
址 并 保存 由 位 图 指示 的 寄存 器 以 及 变 元 指针 和 帧 指针 。 接 着 它 压 入 栈 标 记 ， 那 里 记录 着 需 保 存 的 寄存 器 以 
及 另外 的 一 些 信 息 〈 例 如 条 件 码 )。 最 后 ， 它 设置 变 元 指针 和 帧 指针 并 跳 转 到 跟 在 位 图 后 面 的 那个 字 单 元 
来 开始 子 程序 的 执行 。 过 程 可 以 使 用 帧 指针 访问 局 部 变量 以 及 使 用 变 元 指针 访问 变 元 ( 形 参 )。 | 

过 程 可 以 通过 执行 零 -操作 数 指令 ret 来 返回 。 该 指令 恢复 由 栈 标记 指示 的 寄存 器 以 及 条 件 码 ， 恢 复 
帧 指针 和 变 元 指针 到 它们 原来 的 值 ， 并 将 stack_topP 怡 好 设置 在 实 参 的 下 面 (由 变 元 指针 和 变 元 计数 所 
指示 )， 这 样 就 从 栈 中 弹出 了 变 元 BB). | 

不 幸 的 是 ， 这 种 机 制 不 直接 支持 返回 值 和 块 结构 CHEERS E TERRI). BETES 8 RE 
传递 或 通过 结果 参数 传递 回来 。 对 于 标量 值 ， 我 们 经 常 使 用 寄存 器 的 方法 ， 如 在 VAX 程 序 中 ， 寄 存疑 RO 


帧 指针 








变 元 指针 
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和 R1 和 常常 用 作 此 目的 。 当 使 用 结果 参数 时 ， 这 个 返回 参数 应 当 位 于 栈 的 第 一 个 〈 最 低 的 ) 位 置 ， 且 不 能 


被 包括 在 变 元 计数 内 ， 因 此 ， 返 回 时 它 不 会 从 栈 中 弹出 。 块 结构 可 以 通过 显示 表 或 静态 链 敌 来 处 理 ， 但 


每 个 AR 指针 必须 被 表示 为 一 个 值 对 (pair): 变 元 指针 和 帧 指针 。 

如 果 过 程 可 以 像 在 Algol 60 或 Pascal 语 言 中 那样 作为 参数 传递 ， 那 么 上 述 方法 需要 做 少许 的 扩展 。 
Ada 和 Ada/CS 没 有 这 些 顾 虑 。 这 样 的 过 程 ， 称 为 形式 过 程 (formal procedure)， 我 们 已 在 9.6 节 中 进行 了 
讨论 。 

VAX 机 器 支持 的 方案 和 本 节 中 介绍 的 模型 在 stack_top 指 针 的 处 理 上 区 别 很 大 。VAX 方 案 支 持 全 
局 指针 ， 而 这 里 介绍 的 方案 ， 针 对 每 个 过 程 级 的 活动 记录 以 及 针对 任何 局 部 块 ， 均 有 一 个 局 部 指针 。 不 
管 有 无 硬件 支持 ， 这 两 种 方法 都 可 以 实际 工作 。 它 们 的 主要 差别 是 : 全 局 指针 方法 要 求 在 过 程 或 块 退出 
时 恢复 旧 的 指针 值 ; 而 使 用 局 部 指针 则 不 需要 相应 的 操作 ， 更 确切 的 是 ， 在 退出 发 生 时 ， 某 个 合适 的 局 
部 指针 将 隐 式 地 成 为 话 跃 的 stack top. 


13.5 标号 参数 


某 些 语 言 (例如 FORTRAN 和 Algol 60) 允许 将 语句 标号 作为 参数 传递 。 在 一 个 不 包括 异常 的 语言 
中 可 以 使 用 跳 转 到 标号 参数 的 goto 来 实现 从 过 程 返回 的 另 一 种 选择 ， 就 像 Ada 所 做 的 那样 。 令 人 惊讶 的 
是 ， 标 号 参数 并 不 特别 难 实现 。 在 实际 标号 L 被 绑 定 为 标号 参数 时 ， 我 们 创建 一 个 小 的 形式 过 程 〈 它 的 
过 程 体 是 goto L)， 并 和 往常 一 样 将 它 与 当前 环境 绑 定 (这 和 我 们 为 所 有 形式 过 程 做 的 一 样 )。 现 在 ， 我 
们 只 使 用 形式 过 程 机 制 。 当 要 跳 转 到 形式 标号 参数 时 ， 我 们 就 执行 该 过 程 ， 它 可 以 恢复 正确 的 环境 并 做 
实际 的 跳 转 。 | | 

An FAP dE. ， 则 标号 参数 可 以 传递 为 两 个 指针 : (1) 由 标号 定义 的 代码 位 置 ( 就 是 那个 小 的 
形式 过 程 的 goto 上 过 程 体 ) 和 (2) 标号 的 词法 层次 的 静态 指针 。 执 行 这 个 goto 意 味 着 将 按 那个 静态 指 
针 所 指示 的 来 重 置 当 前 活动 记录 并 跳 转 到 特定 的 位 置 。 我 们 还 必须 确保 有 关 寄 存 器 已 被 恢复 ， 但 这 些 会 
使 事情 变 得 更 加 复杂 。 mE 

He ATTA LGB Pl 13-5 R AARET SIE VLEH [85H Bd BE BOSE SE BUR URS SET A AERE 
(该 程序 摘自 Pratt [1975, p. 225]) 。 我 们 修改 了 该 程序 ， 使 它 可 以 采用 Ada 式 的 语法 ， 其 中 语句 标号 (被 
标识 为 <<L>>。 行 号 将 在 下 面 的 讨论 中 引用 。 
procedure B is 

N : integer; 


procedure P(X : procedure; C : integer) is 
s ure R(label T) is 
in 


moana awh — 


begin -- P 
<<J>> if C > N then 
X(J); 


else 
P(R,C+1); 
if: 


<<K>> N := N+C; 
goto L; 
end P; 


procedure Q(iabel T) is 





图 13-5 标号 参数 示例 
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图 13-5 

图 13-6 显 示 了 在 第 24 行 执行 前 、 在 起 初 的 一 系列 调用 之 后 运行 时 栈 上 每 个 活动 记录 的 主要 内 容 。 所 

有 形式 标号 和 形式 过 程 均 由 两 个 数据 项 来 指定 : (1) 地 址 (图 中 用 实际 过 程 的 名 字 或 标号 来 表示 ) 和 

(2) 静态 链 (一 个 活动 记录 )。 由 AR5 所 表示 的 最 近 一 次 调用 位 于 栈 顶 。 对 于 AR1 中 变量 N， 图 中 包括 了 
它 所 经 历 的 所 有 值 以 及 在 它 获得 每 个 值 时 哪个 活动 记录 位 于 运行 时 栈 顶 。 


ARS (Q): 


13-6 第 一 次 9oto 执 行 前 的 活动 记录 


一 旦 到 达 图 13-6 中 所 描述 的 状态 上 时， 过程 Q 执 行 第 24 行 的 9oto T。T 在 AR2 中 被 绑 定 到 K， 因 此 活动 
记录 AR5、AR4 和 AR3 被 弹出 。 在 标号 为 K 的 语句 执行 后 ， 剩 下 的 运行 时 栈 状 态 如 图 13-7 所 示 。 


505 接 下 来 执行 语句 goto L。L 是 全 局 一 层 和 的， 因此 弹出 AR2 并 在 块 B 退 出 前 打印 N 的 值 7。 


AR2 (P): 


7 (AR2) 5 (ARS) 4 (AR4) 2 (ART) 


图 13-7 第 一 次 goto 执 行 后 的 活动 记录 
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13.6 名 字 参 数 


由 Algol 60 引 入 的 接 名 调用 (call by name) 在 每 次 调用 中 把 参数 传递 模拟 为 用 实 参 系统 地 替换 形 参 。 


也 就 是 说 ， 在 每 次 调用 时 ， 我 们 假装 被 调用 的 过 程 体 是 用 实 参 替换 形 参 而 得 到 的 一 个 宏 展 开 。 这 在 概念 
上 看 似 简单 ， 但 其 实 很 复杂 ， 因 为 实 参 必须 在 调用 者 的 环境 中 而 不 是 在 被 调 者 的 环境 中 被 计算 《我 们 仅 
编译 过 程 体 一 次 )。 此 外 ， 实 际 的 按 名 参数 在 每 次 引用 时 都 必须 (在 调用 者 环境 中 而 不 是 被 调 者 环境 中 ) 
被 重新 计算 。 

因为 实现 按 名 参数 的 复杂 性 ， 所 以 它们 直到 今天 仍 被 视 为 某 种 非 正 规 的 方法 。 然 而 ， 这 种 模式 作为 
一 种 练习 来 明白 参数 传递 中 的 问题 还 是 值得 研究 的 。 

对 于 不 需要 计算 代码 的 参数 〈 例 如 简单 变量 或 常量 ) ， 我 们 可 以 只 传递 其 地 址 。 然 而 ， 如 果 需 要 代 
码 来 计算 实 参 ， 那 么 编译 器 需要 将 此 代码 封装 到 一 个 通常 称 之 为 形 实 转 摘 程 序 (thunk) 的 内 部 生成 的 
过 程 中 。 然 后 ， 这 个 过 程 连同 它 的 环境 作为 实 参 一 起 被 传递 ， 使 用 的 方法 和 形式 过 程 一 样 。 根 据 形 参 访 
问 的 上 下 文 ， 也 许 要 用 这 个 转换 程序 计算 地 址 ( 左 值 1-value ) 或 右 值 (r-value)。 为 确保 不 会 赋值 到 右 值 
表达 式 ， 按 名 传递 的 实 参 表达 式 的 转换 程序 必须 进行 有 关 检 查 ， 在 要 求 去 值 却 出 现 右 值 的 时 候 ， 必 须 产 
生 一 个 运行 时 错误 。 只 读 名 字模 式 也 可 用 类 似 的 方式 来 实现 ， 尽 管 这 在 实践 中 并 不 常见 。 

为 看 一 下 这 些 不 寻常 的 名 字模 式 的 效果 ， 请 考虑 : 

declare 

i : Integer; 


A : array(1..2) of Integer; 
procedure P (J : name Integer) is 


这 个 程序 读数 据 到 变量 A(1) 和 A(2) ， 而 其 他 的 模式 则 将 J 永 久 绑 定 到 A(1)。 
称 为 Jensen' s device 的 程序 说 明了 名 字模 式 的 一 个 实际 的 使 用 : 


function Sum(Expr : name Real; Index : name Integer; Max : Integer) 
return Integer is 
Answer : Real := 0; 


write(Sum(i,i,5)); —- Sum of first five integers 
writein(Sum(j+j,j,10)); —— Sum of first 10 squares 
writein(Sum(log(sin(x/pi)),x,100));  —- integration? 


修改 for loop 中 Index 的 副作用 是 每 次 给 Expr 一 个 不 同 的 值 。 函数 Sum 从 1 到 Max 逐 步 增加 Index 并 ， 


在 每 一 步 中 重新 计算 Expr， 在 Expr 改 变 时 Sum 对 其 求 和 。 

一 个 有 益 的 练习 是 仅 使 用 名 字模 式 参 数 编写 交换 两 个 整数 值 的 Swap 例 程 。 但 方案 却 明 显 地 失败 了， 
这 是 因为 其 中 一 个 参数 (如 第 一 个 参数 ) 首先 被 赋 新 值 ， 而 这 个 改变 可 能 影响 其 他 参数 的 含义 。 例 如 ， 
如 果 i=1 且 a(1)=3， 那 么 调用 Swap(i,a(i)) 将 终止 i (为 3) 的 正确 设置 ， 它 改变 的 是 a(3) 而 不 是 a(1)。 如 果 
首先 给 第 二 个 参数 赋 新 值 ， 那 么 Swap(a(i),i) 也 会 失败 。 我 们 需要 抓 住 并 保留 两 个 变 元 的 左 值 ， 然 后 再 
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修改 它们 的 右 值 。 该 技巧 使 用 下 面 例 子 中 的 一 个 附属 例 程 。( 然 而 ， 对 于 Swap(A,B[f()]) ， 该 方案 还 是 会 
失败 ， 这 里 fli) 在 每 次 调用 时 返回 一 个 不 同 的 值 。 因 为 每 个 实 参 必须 计算 两 次 (第 一 次 取 它 用 来 的 值 ， 第 
二 次 存 入 它 的 新 值 )， 所 以 一 个 完全 通用 的 按 名 调用 方案 看 起 来 是 不 可 能 的 。 参 见 [Fleck 1976]. ) 


function GiveSecond(x, y : name Integer) return Integer is 
-- Returns original r-value of y, gives y a new r-value from x. 


end GiveSecond; 


procedure Swap(a, b :name Integer); 
begin 

a := GiveSecond(a,b); 
end Swap; 


练习 


l. 


9. 


解释 如 何 修改 13.1.2 节 中 的 simple_proc_stmt( ) 动作 例 程 和 13.3 节 中 的 gen_proc_jump( ) 例 程 以 
便 同 时 处 理 函 数 和 过 程 。 | 


， 一 个 无 参 函 数 的 调用 看 起 来 很 像 对 一 个 变量 的 引用 。 确 定 将 修改 第 11 章 的 哪个 动作 例 程 以便 处 理 无 


参 函 数 。 描 述 所 做 的 必要 修改 。 
除了 Ada 语 言 以 外 ， 列 出 你 选择 的 语言 所 定义 的 参数 传递 模式 。 使 用 已 定义 的 参数 模式 再 加 上 语言 的 
其 他 特性 来 描述 如 何 模拟 其 他 种 类 的 参数 传递 模式 。 


，Pascal 的 语言 标准 要 求 Pascal 编 译 器 通过 引用 实现 var 参数 。 编 写 一 个 Pascal 程 序 ， 如 灯 var 参 数 龙 通 


过 值 -结果 方式 实现 的 ， 那 么 该 程序 将 产生 不 同 结果 。 使 用 任何 你 可 用 的 Pascal 编 译 器 编译 并 执行 该 
程序 以 验证 编译 器 是 否 正确 实现 了 Var 参数 。 


， 编 写 一 个 Ada 程 序 ， 它 可 以 发 现 数 组 类 型 in out 参 数 的 实现 。 使 用 该 程序 去 找 出 任何 你 可 接触 到 的 


Ada 编 译 器 所 使 用 的 实现 方式 。 


”给 出 在 13.3 节 例子 中 声明 的 过 程 P 的 attributes 记 录 的 描述 ， 包 括 过 程 参数 的 attributes 记 录 列 表 。 
， 给 出 下 面 过 程 声明 的 attributes 记 录 ， 包 括 过 程 参 数 的 attributes 记 录 州 表 。 


type A is array (1..20) of Integer; — . 
procedure P (X : in Integer; InArray : in A; InOutArray : in out A); 
begin 
for | in 1..20 loop . 
inOutArray(!) := X * InArray(h; 
end loop; 
end P; 


”假定 数组 参数 通过 传 值 或 值 -结果 方式 实现 ， 给 出 为 练习 7 中 的 过 程 所 生成 的 元 组 。 SERI (level, 


offset) 俱 对 而 不 是 符号 化 名 字 来 确定 元 组 中 的 变量 和 参数 。 假 设 P 声 明 的 爸 套 层次 为 2。 
假定 数组 参数 通过 引用 方式 来 实现 ， 给 出 为 练习 7 中 的 过 程 所 生成 的 元 组 。 使 用 (level, offset) 偶 
对 而 不 是 符号 化 名 字 来 确定 元 组 中 的 变量 和 参数 。 假 设 P 声 明 的 嵌 套 层次 为 2。 — 


10， 假 定 下 面 的 声明 与 练习 7 中 的 过 程 P 处 于 相同 的 层次 : 


A1, A2 : ÀA; 
J, K: Integer; 


其 中 A1 的 偏 移 是 5。 给 出 为 以 下 调用 生成 的 元 组 : 
P(J*K, A1, A2); 
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假设 使 用 练习 8 和 练习 9 中 参数 实现 方式 。 

11. 在 13.4.2 节 中 列 出 的 子 程序 调用 和 返回 步骤 均 假设 被 调子 程序 负责 保存 所 有 寄存 器 。 为 在 13.4.1 节 中 
讨论 的 其 他 寄存 器 保存 方法 重 写 这 些 调用 和 返回 序列 。 

12，13.5 节 中 那个 说 明 标 号 参数 的 例子 假设 静态 链 答 可 用 来 引用 非 局 部 环境 。 因 此 ， 一 个 环境 仅 需 要 由 
一 个 静态 链 敌 描述 即 可 。 如 果 使 用 的 是 显示 表 而 非 静态 链 敌 ， 那 么 什么 是 描述 一 个 环境 所 必需 的 ? 
重新 考虑 该 例子 ， 假 设 这 次 使 用 显示 表 。 

13. 对 于 13.6 节 的 第 一 个 例子 中 的 过 程 P 的 按 名 调用 参数 J， 详 细 解释 为 实现 它 的 每 个 引用 所 做 的 计算 。 
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第 14 章 属性 文法 和 多 这 扁 翻 译 


在 第 10 ~ 13 章 ， 我 们 研究 了 实现 各 种 程序 设计 语言 特性 的 技术 。 我 们 根据 所 假设 的 可 被 语法 分 析 器 
直接 调用 的 语义 例 程 来 组 织 并 定义 这 些 技术 。 这 些 语 义 例 程 构 成 编译 器 的 重要 组 成 部 分 ， 因 为 它们 完成 
编译 过 程 中 的 分 析 任 务 后 又 要 开始 综合 任务 。 分 析 完 成 于 语义 例 程 将 〈 从 声明 获得 的 ) 语义 信息 和 所 有 
标识 符 的 使 用 联系 起 来 以 及 检查 程序 是 否 满足 语言 的 任何 静态 语义 约束 。 综 合 开始 于 程序 中 间 表 示 或 实 
际 目标 代码 的 生成 。 语义 例 程 的 命名 就 是 来 自 于 此 综合 步 又 ， 因 为 这 些 例 程 的 输出 必须 反映 由 词法 以 及 
语法 分 析 器 所 识别 的 语法 结构 的 “含义 ”。 

不 论 编译 器 的 组 织 形 式 是 否 可 以 让 语义 例 程 直接 被 语法 分 析 器 调用 ， 在 语义 例 程 部 分 描述 的 技术 通 
常 还 是 很 有 用 的 。 本 章 的 第 一 部 分 将 详细 介绍 属性 文法 (attribute grammar)， 它 曾 在 7.1.1 节 中 被 简要 介 
绍 过 。 属 性 文法 提供 了 描述 语义 处 理 的 实用 的 形式 化 表述 方式 ， 相 比 之 下 ， 我 们 在 第 10 ~ 13 章 中 使 用 的 
是 非 正 规 的 伪 代 码 摘 述 。 在 7.1.2 节 中 所 介绍 的 任何 一 种 编译 器 结构 都 可 以 使 用 属性 文法 来 描述 语义 处 理 。 
然而 ， 它 们 强大 的 描述 能 力 在 围绕 树 结构 中 间 表 示 而 组 织 的 编译 器 中 才能 最 好 地 发 挥 出 来 。 为 此 ， 本 章 
的 第 二 个 部 分 将 研究 树 结构 的 中 间 表 示 以 及 支持 其 使 用 的 工具 。 


14.1 属性 文法 


Knuth (1968) 提出 的 属性 文法 是 一 种 给 语言 的 上 下 文 无 关 的 语法 添加 语义 的 手段 。 每 个 文法 符号 
(终结 符 或 非 终结 符 ) 可 以 有 固定 数目 的 关联 值 ， 称 为 属性 (attribute )。 这 些 属性 代表 着 与 符号 相关 的 
信息 ， 诸 如 它 的 类 型 、 值 、 代 码 序列 和 符号 表 等 。 属 性 可 以 在 分 析 输 入 时 计算 ， 或 在 语法 分 析 器 构造 完 
分 析 树 以 后 再 计算 。 增 加 了 属性 的 结果 分 析 树 代表 着 输入 的 语义 。 

与 给 定 符号 关联 的 属性 可 以 分 为 两 类 : SES (synthetic) 属性 和 继承 (inherited) 属性 。 简 单 地 说 ， 
综合 属性 被 用 来 沿 语法 树 向 上 传递 信息 ， 而 继承 属性 则 被 用 来 治 语法 树 向 下 传递 信息 。 特 别 地 : 

。 终 结 符 可 能 仅 有 综合 属性 。 它 们 由 词法 分 析 器 提供 给 终结 符 。 

。 非 终结 符 可 以 同时 拥有 综合 属性 和 继承 属性 。 在 计算 开始 前 ， 开 始 符号 (start symbol) 的 所 有 继 

承 属性 以 初始 值 方式 提供 (其 实 就 是 参数 )。 

每 个 上 下 文 无 关 的 产生 式 有 关联 的 属性 计算 规则 。 我 们 必须 为 产生 式 右 边 出 现 的 每 个 继承 属性 和 产 
生 式 左边 符号 的 每 个 综合 属性 提供 规则 。 属 性 规则 仅 可 以 使 用 相应 产生 式 中 的 符号 所 关联 的 属性 来 计算 
有 关 的 值 。 这 有 助 于 将 属性 依赖 “包装 ”在 给 定 的 产生 式 中 。 然 而 ， 产 生 式 左 部 符号 的 继承 属性 和 右 部 
的 综合 属性 并 不 通过 给 定 产生 式 的 属性 规则 来 计算 。 相 反 ， 它 们 在 其 他 产生 式 中 计算 并 可 作为 上 述 属性 
计算 规则 的 输入 参数 。 | 

用 于 描述 属性 计算 规则 的 传统 记号 多 来 自 于 Algol 和 Pascal 语 言 ; 我 们 也 借用 Ada 语 言 的 记号 。 具 体 
来 说 ，:= MERE, = 用 作 相等 ，& 用 作 字 符 串 连接 ，-- 用 作 开始 注释 。 

作为 属性 计算 规则 的 示例 ， 考 虑 非 终结 符 A、B 和 C， 其 中 有 继承 属性 a 和 综合 属性 b， B 有 综合 属 [51] 
性 c，C 有 继承 属性 d 。 产 生 式 A 一 B C 可 能 有 如 下 规则 : . 


C.d := B.c + 1; 
Ab := Aa + B.C; 


注意 ，A.a (A 的 属性 a) 和 B.c 在 别 的 地 方 计 算 : 
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作为 一 个 更 具体 的 示例 ， 考 虚 在 图 14-1 中 的 上 下 文 无 关 文 法 (CFG ) ， 它 生成 使 用 运算 符 + 和 * 的 整 
数 常量 表达 式 。 每 个 表达 式 或 子 表达 式 都 标记 有 表示 其 值 的 属性 。 

在 图 14-1 中 ， 某 些 非 终结 符 的 上 标 可 用 来 区 分 产生 式 中 同一 个 非 终结 符 的 多 次 出 现 。 对 于 文法 G1 
的 第 一 和 第 三 条 产生 式 ， 这 种 区 分 有 助 于 消除 属性 计算 规则 中 对 这 些 非 终结 符 的 二 义 引 用 。 这 些 规则 和 
文法 中 其 他 所 有 的 规则 仅 使 用 综合 属性 ， 因 为 信息 流 严格 地 沿 语法 树 自 底 向 上 传递 。 


G1: V, = (E,T,P) 这 些 符 号 中 的 每 一 个 都 有 单个 的 综合 属性 val 
V, 2101 这 个 符号 也 有 一 个 综合 属性 val 


产生 式 属性 规则 


—- E24+T  E'val:- E? val + T.val 
E.val := T.val 
T' val := 1T? val » P.val 
T.val := P.val 
P.val := C.vail 
P.val := E.val 





图 14-1 整数 常量 表达 式 的 属性 文法 
输入 12+3*6 生 成 如 图 14-2 所 示 的 属性 (化 ) 语法 树 (符号 后 面 跟着 它们 的 属性 val 的 值 )。 








=30 
=12 + T=18 
T=12 T=3 * P=6 . 
P=12 P=3 C=6 
C212 C23 


14-2 12+3*6 的 属性 分 析 树 


如 前 所 述 ， 属 性 规则 和 信息 流通 常 都 是 很 简单 明了 的 。 尽 管 如 此 ， 属性 文法 基本 上 是 一 种 非常 强大 
的 形式 化 描述 方法 。 我 们 不 需要 为 属性 规则 做 任何 假设 。 它 们 可 能 非常 复杂 ， 计 算 代价 也 相当 昂贵 ， 例 
如 ， 计 算 过 程 可 能 在 任何 情况 下 都 不 会 终止 。 使 用 这 样 规则 的 属性 文法 也 许 因此 要 指明 那些 非常 耗 时 、 
甚至 有 时 尚未 定义 的 翻译 。 

属性 规则 可 能 会 有 副作用 (诸如 生成 代码 ) 或 者 它们 可 能 不 是 其 输入 参数 的 严格 函数 诸如 某 条 规 
则 给 出 下 一 个 可 用 的 数据 地 址 )。 如 果 没 有 预先 定好 属性 计算 次 序 ( 例 如 ， 从 左 到 右 的 次 序 )， 规 则 的 使 
用 可 能 导致 二 义 性 结果 。 

因此 , 虽然 属性 规则 给 使 用 者 带 来 了 极 大 的 方便 , 但 也 要 求 在 定义 和 使 用 它们 的 时 修 必 须要 很 仔细 。 
同时 ， 属 性 规则 之 间 的 函数 依赖 决定 了 信息 在 语法 树 上 的 流动 方式 。 多 数 时 候 ， 它 只 是 简单 地 自 顶 向 下 
或 自 底 向 上 。 但 有 时 属性 规则 也 能 导致 非常 复杂 的 流动 模式 。 例 如 ， 考虑 图 14-3 中 的 文法 G2。 

图 14-4 给 出 了 从 文法 G2 中 推导 出 的 惟一 的 语法 树 ， 其 中 每 个 结 点 旁边 的 括号 里 的 数字 标示 着 属性 计算 
次 序 。 该 次 序 为 S.A (以 初始 值 方式 提供 )、Z.H、2Z.G、X.C、X.D、S.B、Y.E、 YF. 
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G2:V,-(S,XXYZ) Vt = {x,y,z} 


属性 : 
S: Afinh}, Bisyn} 
X: C(inh), D{syn} 
Y: E(inh), F{syn} 
Z: Hinh), G{syn} — 


FEA 属性 规则 


S5 XYZ ZH:=SA {inh<—inh} 
X.C := ZG {inhesyn} 
(syne-syn) 

(inhe-syn] 


X.D := 2*X.C [(syncinh) 
Y.F := Y.E*3 {syne-inh} 
Z.G := Z.H+1 {syneinh} 





图 14-3 属性 计算 规则 中 复杂 的 信息 流 


广 种 属性 流 的 编排 使 属性 计算 程序 非常 忙碌 。 因 此 ， 很 多 属 S(1,4) 
性 计算 程序 限制 它们 所 允许 的 属性 流 种 类 (如 从 左 自 右 ) 也 就 不 
足 为 奇 了 。 然 而 ， 还 存在 着 更 为 槽 糕 的 属性 流 计 算 次 序 。 如 采 在 
G2 中 ， 用 Z.H := S.B 替 换 规则 Z.H := S.A, 那么 就 会 出 现 这 样 的 X3) Y(5  Z(2) 
情况 : S.B 间 接地 由 其 自身 来 定义 〈S.B 定 义 Z.H， Z.H 定 义 Z.G ， 
Z.G 定 义 X.C，X.C 定 义 X.D， 而 X.D 最 后 定义 S.B)。 在 这 种 情况 
下 存在 着 定义 循环 (circularity), 因此 也 就 没有 合法 定义 的 属性 x y z 
计算 次 序 。 n 
和 人 订户 这 种 定义 的 属性 文法 是 种 环 的 (circular) 并 认为 图 144 AGARA 
是 非 正常 定义 的 。 已 知 有 测试 循环 性 的 算法 (Jazayeri, Ogden and Rounds 1975)， 但 其 运行 时 花费 可 能 
是 被 测 文法 大 小 的 指数 倍 。 幸 运 的 是 ， 大 多 数 计算 方法 被 限制 为 仅 接受 属性 文法 的 非 循环 子 集 〈 这 就 像 
分 析 技 术 被 限制 为 接受 上 下 文 无 关 文法 的 非 二 义 的 子 集 一 样 )。 


14.1.1 简单 赋值 形式 和 动作 符号 


在 属性 计算 规则 中 ， 将 某 个 属性 值 或 常量 赋值 给 另 一 个 属性 是 很 常见 的 。 我 们 称 这 样 的 规则 为 找 丸 
规则 (copy rule)。 因 为 属性 计算 程序 自动 地 处 理 这 样 的 拷贝 规则 , 所 以 我 们 也 就 常常 使 用 一 种 称 为 简 
单 赋值 形式 (simple assignment form) 的 属性 文法 。 在 这 种 形式 的 属性 文法 中 ， 动 作 符 号 〈action 
symbol) 常用 来 实现 所 有 非 平凡 的 属性 规则 〈 即 ， 所 有 非 拷贝 的 属性 规则 )。 给 这 些 动作 符号 的 输入 值 
是 它 的 继承 属性 ， 而 输出 值 则 是 它 的 综合 属性 。 

因此 ， 给 定 产生 式 E! 一 E? + T 和 属性 规则 E'.val := E .val + T.val (该 规则 不 是 简单 赋值 形式 ) ， 我 
们 可 能 会 代 之 以 E! > E? + T<add>， 其 中 动作 符号 <add> 带 有 继承 属性 v1 和 v2 以 及 综合 属性 Sum。 所 
使 用 的 拷贝 规则 是 : 


<add>.v1 := E? val 
<add>.v2 := T.val 
E! yal := <add>.sum 


使 用 拷贝 规则 ， 所 有 非 平凡 的 属性 计算 均 可 被 替换 成 动作 符号 ， 而 这 些 动作 符号 能 被 实现 为 子 程序 (或 
语义 例 程 ) 调用 。 属 性 值 的 拷贝 很 容易 自动 地 进行 。 
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此 外 ， 动 作 符 号 还 可 用 来 加 强 上 下 文 有 关 的 约束 。 我 们 允许 动作 符号 指示 语义 错误 ， 前 提 条 件 是 它 
的 输入 值 〈 即 它 的 继承 属性 ) 是 不 正确 的 。 这 种 错误 的 指示 和 语法 分 析 错 误 的 指示 类 似 。 如 果 输 入 值 是 
正确 的 ， 那 么 动作 符号 将 计算 其 结果 ( 它 的 综合 属性 ) 并 指示 没有 发 生 错误 。 

动作 符号 可 用 于 属性 值 的 检查 和 计算 。 正 因为 如 此 ， 它 们 非常 适合 于 语义 例 程 的 抽象 表示 。 我 们 稍 
后 将 看 到 ， 除 了 手工 编码 的 动作 符号 以 外 ， 属 性 计算 程序 几乎 可 以 自动 处 理 每 一 件 事 。( 手工 编码 可 能 
是 也 可 能 不 是 从 具有 程序 样式 的 动作 符号 定义 开始 的 。) 

考虑 使 用 继承 属性 Max 的 文法 G1 的 修改 版 本 。Max 是 所 允许 的 常量 或 常量 表达 式 的 最 大 值 。 那 些 
要 使 用 较 大 值 的 企图 都 将 被 视 为 属性 文法 中 的 语义 错误 。 图 14-5 给 出 了 修改 后 的 文法 G3。 


G3: V, = {E,T,P} V, ={C}, Action Symbols = {<add>,<mult>,<check>} 
E、T 和 P 有 一 个 继承 属性 Max 和 一 个 综合 属性 Val。 


<add> 和 <mult> 有 继承 属性 Y1、v2 和 Max。 它 们 均 有 综合 属性 Result。 


<Ccheck> 有 继承 属性 Val 和 Max 以 及 综合 属性 Result。 


产生 式 拷贝 规则 
E'— E?.T«add» <add>.v1 := E*.Val 


E? Max := E! Max 
T.Max := E!.Max 


ET E. Val := T. Val 
T.Max := E. Max 


T! — T? +P <mult> «mult».vi := T?. Val 
'  «mult».v2 := P. Val 
«mult». Max := T! Max 
T'.Val := <mult>.Result 
T? Max := T' Max 


T.Val := P.Val 


«check».Max := P.Max 
<check>.Val := C.Val 
P.Val :« «check».Result 


P 一 (E) E.Max :- P.Max 
.  P.Val:- E.Val 


动作 符号 定义 
«add» : if (v1 + v2 > Max) ERROR else Result := v1 + v2 


«mult» : if (v1 * v2 > Max) ERROR else Result := v1 + v2 


«check»: if (Val > Max) ERROR else Result := Val 





图 14-5 属性 文法 的 简单 赋值 形式 


例如 ， 使 用 由 Farrow (1982) 和 Ganzinger 等 (1982) 所 开发 的 技术 ， 可 以 将 图 14-5 中 的 文法 G3 的 
完整 定义 自动 地 翻译 为 常量 表达 式 的 语法 分 析 器 和 属性 计算 程序 /检查 程序 。 
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作为 示例 ， 考 虑 30*30+125 的 处 理 ， 其 中 Max = 1000。( 这 是 一 个 语义 上 非法 的 表达 式 。) 相应 的 
语法 树 显示 在 图 14-6 中 。 其 中 ,一 个 未 定义 值 (=?) 与 表达 式 相关 联 ， 这 是 因为 它 所 计算 的 值 是 非法 的 
(因为 它 大 于 Max ) 。 | 


E : Max=1000,Vai=? 


+| «Add» : v1«900 
v2=125, 
Max=1000, 
Result=? (Error detected) 


E : Max=1000, T : Max=1000, 
Valx900 Valz125 


P:Max=1000, 
Val=125 


c=125 <Check> Val=125, 
Max=1000, 
Result=125 


Max=1000, 





图 14-6 30*30+125 的 属性 语法 树 


14.1.2 树 遍 历 的 属性 计算 程序 


本 节 和 下 一 节 将 研究 名 种 属性 计算 算法 的 有 效 性 及 其 限制 。 属 性 计算 算法 可 分 为 两 类 : (1) 树 遍历 
算法 ， 这 种 算法 一 般 需 要 多 次 遍历 来 计算 所 有 的 属性 〈 因 此 需要 存在 一 棵 语法 树 ) ; (2)“ 直 接 ” 计 算 算 
法 ， 该 算法 在 分 析 程 序 的 同时 计算 属性 值 。 本 节 研 究 树 遍 历 算法 ， 在 14.1.3 节 将 研究 “直接 ”计算 算法 。 
从 左 至 右 凯 历 方法 | 
| 现在 考虑 确定 属性 值 的 方式 。 很 多 属性 计算 方法 被 称 为 树 遍 历 (tree-walk) 的 计算 程序 。 这些 方法 
假定 语法 树 已 被 建立 起 来 ， 并 且 其 中 已 标记 出 开始 符号 的 继承 属性 和 所 有 终结 符 的 综合 属性 。 然 后 ， 这 
些 方法 将 以 某 种 方式 遍历 语法 树 直 到 计算 出 所 有 的 属性 。 一 个 特别 常见 的 遍历 次 序 是 深度 优先 、 从 左 至 
右 人 遍历。 如 果 需 要 ， 可 以 进行 多 次 (R ER) 遍历 。 

以 下 方法 可 以 计算 任何 非 搞 环 的 属性 文法 : 


while (attributes remain to be evaluated) 
visit node(S); /* S is Start symbol */ 


void visit node (node N) 


if (N is a nonterminal) ( 
/* Assume it roots production 
Wu 3X4 "P" Xa */ 
for (i = 1; i <= m; itt) { 
if (!X,€ Ve) I 
/* i.e., a nonterminal or action symbol */ 
Evaluate all possible inherited 
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attributes of X,. 
visit_node (Xi ) 
} 
) 
) 
Evaluate all possible synthetic attributes of N 
) 


只 要 文法 是 非 循 环 的 ， 那 么 在 每 次 遍历 中 将 至 少 计算 一 个 属性 。 进 一 步 ， 如 果树 有 n 个 结 点 ( 且 因 
此 至 多 有 O(n) 个 属性 )， 那 么 最 差 情况 下 的 时 间 复 杂 度 为 O(n*) (与 属性 计算 时 间 无 关 )。 该 算法 其 至 可 
以 处 理 循环 文法 ， 只 要 在 每 次 遍历 后 查验 在 刚才 进行 的 那 次 遍历 中 是 否 已 经 计算 了 至 少 一 个 属性 。 

作为 示例 ， 重 新 考虑 G2。 假 设 S.A 被 初始 化 为 0。 在 计算 开始 前 ， 其 抽象 语法 树 如 图 14-7a 所 示 。 

首次 遍历 中 的 动作 如 下 : 


visit node(S) 
X.C can't be evaluated 
visit node(X) 
XD can't be evaluated 
Y.E can't be evaluated 
visit node(Y) 
Y.F can't be evaluated 
































Z.H :« 0 
visit node(Z) 
ZG:=1 
S.B can't be evaluated 
A=0 A= 
X Y Z X Y ‘H=0, 
| G=1 
X y z x y z 
a) 初始 状态 b) 第 一 次 调用 visit_node() 
AN i /\ j 
X:C=1,Y Z:H=0, X:C=1 ¥:E=0,Z:H=0 
= G=1 D=2 | F=0 | G=1 
x y Z X y z 
c) 第 二 次 调用 visit _ node() dy 第 三 次 调用 visit_node( ) 


图 14.7 文法 G2 中 抽象 语法 树 的 属性 计算 过 程 


在 第 一 遍 计 算 后 ， 语 法 树 的 状态 如 图 14-7b 所 示 。 第 二 次 调用 visit_node(S) 导 致 按 X.C、X.D 和 
S.B 的 次 序 计算 相应 的 属性 值 ， 此 时 语法 树 的 状态 如 图 14-7c 所 示 。 最 后 ， 第 三 次 遍历 将 计算 Y 的 两 个 属 
性 。 语 法 树 的 最 终 状 态 如 图 14-7d 所 示 。 
该 算法 非常 普通 ， 同 时 也 非常 粗糙 且 常 常 效率 不 高 (我们 重复 访问 了 已 计算 的 结 点 )。 只 有 当 我 们 
能 证 明 某 些 固定 的 N 遍 访问 即 可 满足 计算 需要 时 (与 待 计算 的 实际 语法 树 无 关 )， 一 种 计算 算法 才 算是 真 
正 有 了 吸引 力 。 
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到 计算 的 属性 文法 称 为 L- 属 性 定义 的 《L-attributed)。 注 意 ， 如 果 底 层 的 CFG 是 LL(1) 的 ， 那 么 我 们 可 以 
在 分 析 进 行 的 同时 计算 有 关 属 性 。 属 性 文法 是 L- 属 性 定义 的 ， 当 且 仅 当 : 
* 右 部 符号 的 每 一 个 继承 属性 仅 依赖 于 左 部 符号 的 继承 属性 和 这 个 给 定 右 部 符号 左边 的 那些 符号 的 
任意 属性 。 | 
“每 个 左 部 符号 的 综合 属性 仅 依赖 于 它 的 继承 属性 和 右 部 符号 的 任意 属性 。 
。 动 作 符号 的 每 一 个 综合 属性 仅 依赖 于 它 的 继承 属性 。 
事实 上 ， 这 些 属 性 流 上 的 限制 假设 产生 式 X 一 YY... Yo 中 存在 如 下 的 属性 计算 次 序 : 519 
Evaluate X's inherited attributes. 


Evaluate Y,'s inherited attributes. 
Call visit_node(Y,) to get Y,'s synthetic attributes. 


Evaluate Y,'s inherited attributes. 
Call visit_node(Y,) to get Y,'s synthetic attributes. 
Evaluate X’s synthetic attributes. 


注意 :属性 文法 G1 和 G3 是 L- 属 性 定义 的 (但 G2 不 是 )。 

Bochmann(1976) 分 析 了 更 一 一 般 的 有 关 N 遍 访问 什么 时 候 可 以 满足 计算 的 问题 ， 并 提出 了 一 个 可 确定 
什么 时 候 N 遍 访问 将 总 是 满足 计算 的 算法 。 

对 某 些 非 循环 的 属性 文法 而 言 ， 不 能 为 所 有 的 语法 树 事先 固定 访问 的 遍 数 N。 考 虑 图 14-8 中 的 属性 
文法 ， 它 生成 a 的 列表 并 〈 使 用 一 些 稍 有 技巧 的 办 法 ) 对 a 计数 。 


G4: V, = {a} Vn = (L.A) 


L 有 综合 属性 C (代表 count) ， 用 于 统计 其 子 树 中 a 的 个 数 。 


A 有 继承 属性 RC (代表 right count)， 用 于 统计 其 右边 a 的 个 数 


产生 式 属性 规划 


ARC := L?.C 
L'.C := ARC +1 
A.RC := 0 

L.C := 1 





14-8 带 有 从 右 到 左 信息 流 的 属性 规则 


图 14-9 显 示 了 字符 串 aaa 的 属性 语法 树 。 注 意 : 这 里 信 息 流 方向 是 从 右 到 左 且 需要 On) 人 遍 来 计算 带 
有 n 个 a 的 树 (这 意味 着 需要 O(n”) 的 时 间 )。 
我 们 注意 到 ， 有 时 从 右 到 左 的 深度 优先 的 树 遍历 效果 较 好 〈G4 的 树 可 在 从 右 到 左 的 一 遍 访 问 中 计 [520] 
算 )。 而 这 种 观察 导致 产生 从 左 到 右 和 从 右 到 左 两 种 遍历 交替 使 用 的 想法 (Jazayeri and Walter 1975). 
但 是 ， 不 是 所 有 的 非 循环 属性 文法 都 可 以 在 固定 次 数 的 交替 遍历 中 计算 。 
考虑 图 14-10 中 的 文法 G5， 它 是 文法 G4 的 一 种 推广 ， 也 可 以 对 生成 的 a 进行 计数 。 这 里 ， 交 替 的 访 
问 遍 历 在 信息 流 以 Z 字 形 穿越 树 的 情况 下 并 不 是 真 的 很 有 用 。 该 信息 流 如 图 14-11 中 稍 头 所 示 。 
在 每 遍 访 问 中 ， 信 息 仅 向 上 传递 一 层 ， 因 此 需要 O(n) 饥 来 访问 n 个 A 的 树 (再 次 重申 ， 需 要 O(n ) 的 
时 间 )。 








334 £14 





图 14-9 文法 G4 的 一 个 属性 语法 树 


G5: V, = (a) V, = (L.L2,A). 


L 和 L: 有 名 为 C〈 代 表 count) 的 综合 属性 ， 用 于 统计 以 它们 为 根 的 子 树 
中 a 的 个 数 


A 有 继承 属性 BC (代表 brother’s count)， 用 于 统计 A 的 兄弟 子 树 中 a 的 个 
数 


产生 式 属性 规则 


L 一 AlL2 ABC:=L2.C 
L.C := A.BC+1 
L oA A.BC :=0 
L.C := 1 
l2 LA A.BC := L.C 
L2.C := A.BC+1 
L? >A A.BC := 0 
L2.C := 1 
A 4a 
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总 之 ,深度 优先 的 遍历 (从 左 到 右 或 从 右 到 左 ) 非常 普通 ， 除 了 L- 属 性 定义 外 ， 它 们 在 处 理 那 些 
已 被 重复 访问 过 的 结 点 时 相当 低 效 ， 因 为 那些 结 点 要 么 不 可 计算 ， 要 么 已 被 全 部 计算 过 。 
交 蔡 遍历 方法 
正如 我 们 所 看 到 的 ， 从 左 到 右 和 从 右 到 左 遍 历 方法 在 处 理 那些 经 常 被 访问 的 结 点 时 有 不 足 的 地 方 ， 
因为 有 时 并 不 需要 那样 做 。 我 们 现在 考虑 一 种 更 具有 针对 性 的 访问 模式 。 其 关键 思想 来 自 于 下 面 的 观察 : 
每 个 非 终结 符 和 动作 符号 至 少 要 被 访问 一 次 ， 但 一 旦 被 访问 ， 在 它们 至 少 有 一 个 其 他 的 属性 可 用 ( 即 ， 
被 计算 出 来 ) 之前， 这 些 符号 暂时 不 需要 被 再 次 访问 。 
简 言 之 ， 所 有 流入 子 树 的 信息 将 穿 过 它 的 根 结 点 ， 因此 子 树 的 计算 将 由 根 属性 的 计算 提供 线索 。 使 
用 这 种 想法 ， 可 以 实质 性 地 改进 先前 定义 的 visit_node( ) 例 程 。 假 设 我 们 用 值 State 标 记 语法 树 上 的 每 
个 结 点 。 对 于 结 点 A，State(A) 是 表示 上 次 访问 A 时 所 计算 的 A 的 属性 集 ; NV 则 用 来 表示 A 从 未 被 访问 过 。 
所 有 非 终 结 符 和 动作 符号 均 有 初始 状态 值 NV。 所 有 终结 符 的 初始 状态 值 等 于 它们 的 综合 属性 集 (因为 
所 有 这 些 综合 属性 值 由 词法 扫描 器 提供 )。 进 一 步 ， 我 们 将 使 用 函数 Atr。Atr(A) 给 出 所 有 当前 已 计算 的 A 
的 属性 。 注 意 ， 除 了 在 State(A)=NV 时 ， 其 他 情况 下 State(A) & Atr(A) 。 








现在 可 以 考虑 使 用 状态 信息 来 智能 地 指导 属性 计算 程序 : 


void visit node2 (node N) 
{ 


if (N is an Action Symbol) 
Evaluste all possible attributes in N 
else ( /* N is a nonterminal */ 
while (TRUE) { 
Evaluate all possible attributes in the 
production rooted by N; 


~ 
if (there exists an offspring, X,, of N — >A 
such that State(X,) != Atr(X,)) 
visit_node2 (Xi ) ; 
else 

break; 

A 

IN 

| | 

A 


} 


} 
State[N] = Atr[N]; 


注意 ， 结 点 可 被 访问 ， 条 件 是 它们 还 没有 被 访问 过 或 从 上 次 访问 以 来 又 
有 一 个 新 的 属性 被 计算 出 来 。 这 意味 着 : 可 对 每 个 结 点 做 有 限 次 数 的 访 
间 ， 即 ， 遍 历 为 线性 的 。 同 样 ， 这 里 也 只 能 计算 非 循 环 的 属性 文法 。 

作为 示例 ， 再 次 考虑 G2。 我 们 从 图 14-12 中 的 树 开始 。( 实 际 的 属 
性 值 没 有 被 给 出 ; 非 终结 符 还 没有 被 访问 ; 终结 符 也 设 有 属性 。) 

从 Atr(S) = {A} 开 始 ， 我 们 调用 visit_node2(S): 

(1) 立即 计算 Z.H， 因 此 Atr(S) = {A}，Atr{Z} = {H}. 


(2) 现在 Atr(Z =Ø = State(X) = {NV7， 因 此 X 被 访问 。 14-11 基于 文法 G5 的 
(3) visit node2(X). 属性 化 树 中 的 信息 流 
此 时 没有 属性 被 计算 ， 因 此 我 们 设置 State(X) = 人 并 返回 。 (A) 
(4) 现在 State(X) = Atr(X) = 名， 因此 我 们 访问 Y。( 再 次 地 ，Atr(Y) = 
Ø = State(Y) = NV.) XNV Y:NV Z:NV 


(5) visit node2(Y). 
此 时 没有 属性 被 计算 ， 因 此 我 们 设置 State(Y) = OFRE. 





(6) 现在 State(Y) = Atr(Y) = @， 因 此 我 们 访问 Z(Atr(Z) = {H} = xo ye z$ 
State(Z) = NV). - 图 14-12 应 用 visit node2() 
(7) visit node2(Z). 之 前 文法 G2 的 属性 树 


此 时 计算 Z.G， 且 State(2) 变 为 {G, H). 

(8) 现在 可 以 计算 X.C。 因 为 Atr(X) = C = State(X) =Ø, MARAT WAX. 

(9) visit node2(X). 

此 时 计算 X.D， 且 State(X) 变 为 {C, D}. 

(10) 现在 可 以 计算 S.B 和 YE 。 因 为 Atr(Y) = E x State(Y) = 名， 所 以 我 们 访问 Y.。 

(11) visit node2(Y). 

此 时 计算 YYF， 且 State(Y) 变 为 (E, F}. 
O OD 没有 更 多 的 属性 需要 被 计算 且 也 没有 更 多 的 结 点 需要 被 访问 (Atr(X) = State(X), Atr(Y) = 
State(Y)，. . .)。 此 时 计算 完毕 。 

注意 : 采用 这 种 技术 的 计算 比 使 用 原来 的 visit_node( ) 过 程 的 情况 更 为 直接 且 考 虑 更 周到 。 


14.1.3 直接 属性 计算 程序 
不 像 树 遍历 计算 程序 , 直接 属性 计算 程序 将 属性 计算 与 分 析 相 结合 而 不 是 在 分 析 后 进行 。 这样 看 来 ， 
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它们 是 很 好 的 一 遍 语 法 制导 编译 器 的 模型 。 此 类 计算 程序 在 计算 某 些 属性 时 将 放弃 那些 不 需要 的 属性 值 。 
这 种 翻译 的 方法 通常 可 以 借助 于 副作用 (例如 ， 代 码 或 慌 的 生成 ) 或 通过 把 翻译 构造 为 目标 符号 的 综合 
属性 来 实现 。 然 而 ， 如 果 需 要 的 话 ， 我 们 可 以 显 式 地 将 属性 值 写 到 文件 中 而 不 是 扔 掉 。 那 样 ， 我 们 可 以 
根据 是 否 需 要 而 产生 完整 的 属性 语法 树 。 

这 种 直接 方法 的 执行 和 语法 分 析 器 结合 在 一 起 ， 且 它 的 特征 可 以 从 两 个 方面 来 加 以 描述 : (1) 要 使 
用 的 语法 分 析 器 ，(2) 要 适应 的 属性 流 种 类 。 通 常 ， 对 于 给 定 的 分 析 方法 ， 我 们 试 着 使 用 可 能 是 最 一 般 
的 属性 流 。 然 而 ， 所 有 这 些 模 式 都 至 少 假定 有 从 左 到 右 的 属性 流 。 因 此 前 向 引用 (对 于 一 遍 编译 器 来 说 ) 
是 个 问题 。 

LL(1) L- 属 性 定义 计算 程序 

LLU) L=- 属 性 定义 类 的 计算 程序 相当 有 名 且 功 能 强大 (Lewis, Rosenkrantz and Stearns 1976)。 我 
们 假设 属性 文法 是 L- 属 性 定义 的 (如 先前 所 定义 的 )， 其 底层 的 CFG 亦 为 LL(1) 的 且 文 法 采用 简单 赋值 形 
式 。 我 们 曾经 提 及 任何 属性 文法 可 以 被 很 容易 地 改造 成 简单 赋值 形式 。 

L- 属 性 定义 的 属性 流 可 以 完美 地 适应 于 基于 LL(1) 的 属性 计算 。L- 属 性 定义 规则 指出 ， 在 计算 产生 
式 的 属性 上 时， 我 们 应 该 首先 计算 左 部 符号 的 继承 属性 ， 然 后 再 (从 左 至 右 地 ) 计算 产生 式 右 边 的 各 个 属 
性 ， 最 后 才 计 算 左 部 符号 的 综合 属性 。 这 就 和 首先 预测 产生 式 左 部 并 接着 预测 和 匹配 产生 式 右 部 符号 的 
LL(1) 分 析 器 很 好 地 配合 起 来 。 

假定 我 们 的 计算 程序 使 用 属性 栈 (其 实 也 就 是 语义 栈 )。 当 一 个 非 终结 符 被 预测 时 ， 它 的 继承 属性 
被 压 入 栈 中 。 当 产生 式 的 右 部 符号 被 识别 时 ， 它 们 的 继承 属性 和 综合 属性 被 先后 压 人 栈 中 。 最 后 ， 当 整 
个 右 部 被 识别 时 ， 将 从 栈 中 弹出 右 部 所 有 的 属性 并 压 人 左 部 的 综合 属性 。 

因此 ， 如 果 预 测 并 识别 出 X 一 YZ， 和 那么 属性 栈 上 的 有 关 操 作 如 下 : 

(1) 压 入 X 的 继承 属性 : 

Stack = … Inh(X) 
(2) 压 入 Y 的 继承 属性 : 
Stack = … Inh(X) Inh(Y) 
(3) 压 人 Y 的 综合 属性 (在 分 析 Y 后 ): 
Stack = … Inh(X) Inh(Y) Syn(Y) 
(4) 压 人 Z 的 继承 属性 : 
Stack = … Inh(X) Inh(Y) Syn(Y) Inh(Z) 

(5) 压 入 Z 的 综合 属性 (在 分 析 Z 后 ): 

Stack = … Inh(X) Inh(Y) Syn(Y) Inh(Z) Syn(Z) 

(6) 弹出 所 有 右 部 符号 的 属性 并 压 人 X 的 综合 属性 : 

Stack = … Inh(X) Syn(X) | 
由 于 L- 属 性 定义 的 约束 ， 因 此 所 有 属性 值 在 需要 时 才 存 在 于 栈 上 且 位 于 栈 中 〈 相 对 于 栈 顶 的 ) 一 个 已 知 
的 位 置 上 。 

为 完善 属性 计算 程序 ， 我 们 仅 需要 提供 操作 属性 栈 的 方法 。 为 此 我 们 引入 找 贝 符号 (copy symbol). 
它们 本 质 上 是 进行 属性 移动 而 非 属性 计算 的 动作 符号 。 这 些 拷贝 符号 可 以 从 拷贝 规则 自动 地 生成 并 在 继 
承 属性 或 综合 属性 被 操控 时 出 现 。 

通过 下 面 简单 的 示例 ， 我 们 可 以 清楚 地 看 到 拷贝 符号 的 使 用 。 图 14-13 中 给 出 了 仅 使 用 运算 符 + 的 
新 版 本 G1 ( 称 之 为 G1A)。 该 文法 是 LL(1) 的 和 L- 属 性 定义 的 ， 且 采用 了 简单 赋值 形式 。 用 标记 为 #1、 
#2 的 拷贝 符号 替代 G1A 中 的 拷贝 规则 就 产生 了 如 图 14-14 所 示 的 文法 。 

图 14-15 显 示 了 在 文法 G1A 的 变换 版 本 中 分 析 和 计算 10 + 11 $ 的 追踪 过 程 。 在 分 析 完 成 时 符号 E 的 
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综合 属性 〈《E.val) KERE BH) RE. 


G1A: V, = (E,T,T-List) V, = {C,$,+} Action symbols = «add» 


Attributes: 
Syn(E) = Syn(T) = Syn(T-List) = Syn(C) = {Vai} 
Inh(T-List) = {LeftVal} 
Inh(<add>) = (V1, V2)  Syn(<add>) = {Result} 


产生 式 属性 规则 


— TT-List$ E.Val := T-List.Val 
T-List.LeftVal := T.Val 


-> C T.Val := C.Val 

— + T <add> T-List? <add>.v1 := T-List' .LeftVal 
<add>.v2 := T.Val 
T-List? .LeftVal := «add» .Result 
T-List' .Val := T-List? .Val 


T-List.Val := T-List.LeftVal 





图 14-13 (X (E FAS OL Ee SHE 


E — T #1 T-List $ #2 

T => C #3 

T-List — + T 44 «add» #1 T-List #5 
T-List — #1 


#1 : Push copy of Top Element 

42 : Temp :- Top Element; Pop 3; Push Temp 

#3 : None —- Equivalent to Temp := Top; Pop 1; Push Temp 
#4 : Push copy of Top-1; Push copy of Top-1. 

#5 : Temp := Top; Pop 6; Push Temp 





图 14-14 使 用 拷贝 符号 变换 文法 G1A 


Attribute Stack Parse Stack 
Empty : : 
Empty T #1 T-List$#2 — C:10«C:1 
Empty C:10 #3 #1 T-List$ #2 — C:10«C:1 
10 #3 #1 T-List $ #2 : 
10 #1 T-List $ #2 
10 10 T-List $ #2 
10 10 4T $ #2 
10 10 +T #4 «add» #2 T-List #5 $ #2 
1010 T #4 «add» #1 T-List #5 $ #2 
10 10 C:11 #3 #4 «add» #1 T-List #5 $ #2 
10 10 11 #3 #4 «add» #1 T-List #5 $ #2 
10 10 11 #4 «add» #1 T-List #5 $ #2 
1010111011 «add» #1 T-List #5 $ #2 
10 10 11 10 11 21 #1 T-List 45 $ #2 
10 10 11 10 11 21 #1 T-List 45 $ #2 
10 10 11 10 11 21 21 T-List 45 $ «42 
10 10 11 10 11 21 21 21 #5 $ #2 
10 10 21 $ #2 
10 10 21 #2 
21 Empty 





图 14-15 使 用 G1A 的 属性 计算 追踪 


注意 : 存在 很 多 针对 栈 操作 例 程 的 可 能 优化 。 例 如 ， 在 
E- T #1 T-List $ #2 | 
中 ， 可 以 通过 允许 T.val 和 T-List.LeftVal 共 享 相同 的 栈 位 置 来 消除 由 #1 所 上 暗示 的 拷贝 。 我 们 稍 后 会 看 到 ， 
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在 基于 LR 的 属性 计算 程序 中 ， 这 种 优化 是 至 关 重 要 的 。 同 样 ， 也 可 以 合并 序列 #4 «add» #1 为 一 个 例 
程 。 可 以 直截了当 地 实现 并 在 实践 中 使 用 这 些 优化 。 
LR S- 属 性 定义 计算 程序 

LR 类 的 语法 分 析 器 较 之 LL 分 析 器 的 优势 在 于 : 它们 将 产生 式 的 识别 一 直 推 迟到 整个 产生 式 右 部 被 
识别 出 来 为 止 。 然 而 ， 在 考虑 属性 计算 时 ， 这 种 优势 限制 了 其 所 适应 的 属性 流 。 特 别 是 由 于 LR 分 析 器 
一 般 不 知道 它 正在 识别 的 是 什么 产生 式 ， 因 此 它 也 就 不 能 为 符号 提供 继承 属性 。 所 以 LR 技术 常常 局 限 
于 S$- 属 性 定义 文法 ， 该 文法 仅 允 许 非 终结 符 有 综合 属性 。 特 别 地 ， 一 个 属性 文法 是 S- 属 性 定义 的 《S- 
attributed), 34 HX ?4 

。 它 是 L- 属 性 定义 的 。 

。 非 终结 符 仅 有 综合 属性 。 

。 所 有 动作 符号 (和 拷贝 符号 ) 出 现在 产生 式 右 部 所 有 终结 符 和 非 终结 符 的 右边 。 

考虑 如 图 14-16 所 示 的 G1B， 它 是 文法 G1 的 另 一 个 仅 使 用 运算 符 + 的 版 本 ， 同 时 也 是 S- 属 性 定义 
的 、LR(0) 的 和 采用 简单 赋值 形式 的 。 再 次 使 用 拷贝 符号 变换 ， 得 到 如 图 14-17 所 示 的 文法 。 











G1B: V, (E) Vi={C,+} Action Symbols = («add») 


Attributes: 
Syn(E) = Syn(C) = {Val} 
Syn(<add>) = {Result} Inh(«add») = {v1,v2} 





产生 式 属性 规则 
E! > E? + C <add> <«<add>.vt := E? val 
| «add» .v2 := C.val 
E' val := <add>.Result 


E+C E.val := C.val 





图 14-16 使 用 拷贝 规则 的 S- 属 性 定义 文法 


ES E + C #1 «add» #2 
E -> C#3 


#1: Push copy of Top-1; Push copy of Top-1 
#2: Temp := Top; Pop 5; Push Temp 
43: No action —- In effect Temp := Top; Pop 1; Push Temp 





图 14-17 使 用 拷贝 符号 变换 文法 G1B 


我 们 注意 到 那些 拷贝 和 动作 符号 串 中 包括 了 自 底 向 上 编译 器 中 的 标准 语义 例 程 并 且 将 在 语法 分 析 器 
指示 归 约 的 时 候 被 调用 。 
LR LC- 属 性 定义 计算 程序 

s- 属 性 定义 类 对 我 们 没有 吸引 力 ， 因 为 它 不 允许 有 继承 属性 。 而 在 实践 中 ， 如 果 有 可 能 ， 应 该 允 
许 使 用 继承 属性 。 一 般 来 说 ， 产 生 式 不 需要 在 最 左 端 (如 在 LL 中 ) 或 它 的 最 右 端 (如 在 LR 中 ) 被 识别 ， 
但 它 可 以 在 其 右 部 中 间 的 某 个 位 置 上 被 识别 。 事 实 上 ， 产 生 式 A 一 of 的 右 部 可 以 分 成 两 部 分 : EA 
(left corner) 和 尾部 (trailing part)。 根 据 定义 ， 任何 产生 式 可 以 在 其 左 角 分 析 处 理 后 即 被 识别 出 来 。 在 
LL(1) 中 ， 左 角 总 是 为 空 ， 在 LR(1) 中 ， 左 角 有 时 可 以 包括 整个 右 部 (尽管 在 许多 LR 文法 中 左 角 都 很 小 )。 
这 种 右 部 的 划分 暗示 着 B (是 部 ) 允许 使 用 继承 属性 。 因 此 ， 就 有 了 以 下 S- 属 性 定义 和 L- 属 性 定义 的 混 
合 属性 流 。 一 个 属性 文法 是 LC 属性 定义 的 《LC-attributed)， 当 且 仪 当 
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* 在 左 角 中 出 现 的 非 终 结 符 没 有 继承 属性 。 

* 左 角 中 不 会 出 现 动作 符号 。 
实际 上 ， 左 角 人 允许 S~ 属 性 流 ， 而 屁 部 允许 L- 属 性 流 。 

LC- 属 性 文法 的 确 是 S$- 属性 文法 的 改进 。 同 样 重要 的 是 ， 我 们 可 以 用 任何 LR 类 的 分 析 器 来 分 析 它 
们 。 这 个 想法 是 : 从 概念 上 我 们 创建 一 个 带 有 能 界定 左 角 的 特殊 识别 符号 (recognition symbol) 的 CFG。 
如 果 属 性 文法 是 LC- 属 性 定义 的 ， 那 么 动作 符号 和 拷贝 符号 仅 能 在 尾部 出 现 ， 但 不 必 在 最 右 端 。 这 样 ， 
我 们 可 能 有 : | 

A — XY& «Al»Z«A2» ` 
(& 是 识别 符号 ; LR 分 析 器 看 不 到 它 一 - 它 的 出 现 仅 为 了 界定 左 角 。) 对 那些 在 最 右 端 出 现 的 动作 符号 和 
拷贝 符号 〈( 如 <A2>)， 和 以 往 一 样 ， 我 们 在 识别 产生 式 时 处 理 它 。 为 处 理 <A1>， 我 们 引入 新 的 非 终 结 
符 和 产生 式 (<call At» 一 入 )。 因 为 这 个 【总 是 生成 和 的 ) 新 的 非 终结 符 必 须 在 尾部 ， 所 以 我 们 可 以 肯 


定 它 将 被 正确 地 分 析 。 事 实 上 ， 尾 部 被 定义 为 产生 式 右 部 的 某 个 区 域 ， 在 其 中 我 们 可 以 在 不 破坏 可 分 析 


性 的 情况 下 放置 新 的 仅 产生 的 非 终 结 符 。 | 
楼 着 ， 我 们 将 拷贝 符号 和 动作 符号 与 那个 刚 创建 的 -产生 式 相 关联 。 先 前 的 产生 式 因而 被 变换 为 : 


A — XY«call At>Z<A2> 
«Call A1» — «A1» 


可 以 使 用 普通 的 LR 类 技术 分 析 这 些 产 生 式 。LC- 属 性 定义 类 最 初 由 Rowland (1977) €X. 
左 角 中 继承 属性 有 限制 的 使 用 

LC- 属 性 文法 的 使 用 也 不 完全 令 人 满意 ， 因 为 有 时 必须 为 左 角 符号 提供 继承 属性 。 考 虑 如 图 14-18 
所 示 的 GA3， 它 是 使 用 运算 符 + 的 另 一 个 版 本 的 G3 并 带 有 最 小 的 左 角 。 






G3A: V, ={E} V, = {+,C} Action Symbols = {<add>,<check>} 








Attributes: 
Inh(E) = (Max) Syn(E) = {Val} 
Syn(C) = (Val) 
Inh(«add») = {v1,v2,Max}  Syn(«add») = {Result} 
Inh(<check>) = (Val,Max) Syn(<check>) = {Result} 











FER 属性 规则 


E1 _，E2&+C<add> E?.Max := E'.Max 
<add>.v1 := E*.Val 
<add>.v2 := ©.Val 
<add>.Max := E'.Max. 

E! Val := <add>.Result 









E— & C «check» «check». Val := C.Val 
«check». Max := E.Max 
E.Val := <check>.Result 


图 14-18 左 角 中 需要 继承 属性 的 属性 文法 


GA3 不 是 LC- 属 性 定义 的 ， 因 为 左 角 符号 E 有 继承 属性 。 然 而 ， 在 左 角 中 继承 属性 所 需要 的 找 由 符 
号 经 常会 被 优化 挤 (Watt 1977)。 此 例 中 ， 可 以 通过 让 属性 共享 相同 的 栈 中 位 置 而 消除 从 E .Max 到 
E2.Max 的 拷贝 。 事实 上 , 前 i 个 (i> 1) 栈 位 置 的 拷贝 可 以 通过 共享 而 被 优化 掉 (这 些 属性 实际 上 是 只 读 的 )。 
去 除 左 角 中 的 拷 册 后 将 产生 : 


ES E& + C #1 «add» #2 
E — & C #3 <check> #4 


#1: Push Top-1; Push Top-1; Push Top—4; 
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#2: Temp := Top; Pop 6; Push Temp 

#3: Push Top; Push Top-2 

#4: Temp := Top: Pop 4; Push Temp 
这 个 文法 可 以 用 前 一 节 的 方法 来 处 理 。 这 种 拷贝 优化 不 允许 在 左 角 中 有 任何 的 继承 属性 〈 或 动作 符号 )， 
但 Watt 声 称 ， 它 足以 处 理 一 个 Pascal 语 言 的 属性 文法 (使 用 LR 类 分 析 器 )。 


14.1.4 属性 文法 示例 


在 图 14-19 中 ， 我 们 给 出 包括 if 语句 和 while 循 环 的 文法 片段 所 对 应 的 属性 文法 示例 。 使 用 这 个 例子 
有 两 个 目的 : (1) 展示 一 个 比 先 前 抽象 例子 更 为 真实 的 属性 文法 ，(2) 举例 说 明 在 不 要 求 一 遍 处 理 的 时 候 
如 何 简化 语义 处 理 算 法 。 该 例子 是 基于 Tomasz Kowaltowski 所 开发 的 示例 。 在 某 种 程度 上 ， 它 比 在 第 12 
章 提 出 的 布尔 表达 式 短路 计算 的 算法 要 简单 些 ， 这 是 因为 它 在 计算 这 样 的 表达 式 的 时 候 用 到 了 从 右 到 左 
I RPE UE 





-~ The symbol "&" represents string concatenation 












S — if E then L end if E.case:=FALSE 
E.label:=S.next 
L.next:=S.next 
S.code:=E.code & L.code & 
generate(LABEL,S.next,"^,"") 


S if E then L' eise L° endif — E.case:zFALSE 

E.label:znew label() 

L' .next:-S.next 

L?.next:-S.next — 

S.code:=E.code & L'.code & 
generate( JUMP, S.next,"","") & 
generate(LABEL, E.label,"","") & 
L? code & 


generate(LABEL,S.next,”,"") 















` S 5 while E loop L end loop;  E.case:=FALSE 


E.label:=S.next 

S.begin:-new label() 

L.next:- S.begin 

S.code:-generate(LABEL,S.begin,"",") & 
E.code & L.code & 
generate(JUMP,S.begin,"","") & 
generate(LABEL,S.next,"^,"") 


S — OtherS S.code:=OtherS.code 






Los S.next:=L.next 
L.code:=S.code 






LotL's L' next:=new_label() 
S.next:=L.next 
L.code:=L' .code & S.code 


E — E' BoolOp E? E? label:=E.label 
E? case:«E.case 
if BoolOp.operator = OrElseOp then 
E'.case := TRUE 
if E.case then 
E! Jabel:=E.label 
E.code:= E1.code & E?.code 
















generate(LABEL,E' .label,"","") 


end if; 
eise —— BoolOp.operator = AndThenOp 
E! case := FALSE 


case then 
.abet:znew label() 


图 14-19 短路 计算 的 属性 文法 








E.code:= E1.code & E*.code 
generate(LABEL, Etat abel, ma ue) 


ME ab label: -E. label 
:= E! code & E?.code 
end it ^ 


E > not E' E. Jabel:-E label 
E > (E!) 


E -» id! RelOp id? case then 
~ gonerato(GR, Re SP, operator, 
id^ Joc, E label) 


else 
generate(BR, 
complement( (Rope operator), 
id’ toc,id? .loc,E 
end if 


E.code:=if E.case 
e genorate(JUMP. E.label,"","") 


E - false 


eise 
generate(JUMP,E.label,”","") 
end if 





图 14-19 《 续 ) 


在 这 个 文法 中 ，( 由 非 终结 符 S 指 示 的 ) 语句 有 继承 属性 next 和 综合 属性 code; 属性 next 是 在 当前 
正 被 考虑 的 语句 之 后 执行 的 某 条 语句 的 标记 ， 而 属性 code 则 是 包含 为 语句 产生 的 代码 串 。( 这 些 属性 规 
则 假设 元 组 生成 例 程 generate() 以 串 的 方式 返回 元 组 。 ) 由 非 终 结 符 E 指 示 的 每 个 表达 式 有 两 个 继承 属 
Wk: iabel， 一 个 符号 标号 属性 ; case (true 或 false)。 这 些 属性 解释 如 下 : 如 果 表达 式 的 值 计算 为 case， 
那么 表达 式 的 代码 将 导致 到 label 的 跳 转 ;否则 ， 代 码 将 “ 流 到 ”下 条 指令 。 

这 种 方法 比 在 第 12 章 中 见 到 的 两 种 算法 要 简单 ， 那 些 算法 需要 对 根据 表达 式 值 的 真 假 来 回填 的 元 组 
链 进 行 维护 。 而 这 里 仅 有 一 个 标号 与 每 个 表达 式 相关 联 (如 果 使 用 了 回填 方法 ， 那 也 只 有 一 条 链 和 表达 
式 关联 )。 这 种 简化 的 关键 在 于 发 现 产 生 式 E — E' BoolOp E? 相 关 的 属性 计算 规则 。BoolOp 的 属性 
operator 是 用 来 计算 E'.label (从 右 到 左 属性 流 )， 这 样 就 有 可 能 在 分 析 E' 的 时 候 产 生 合适 的 跳 转 以 处 理 
它 独自 决定 表达 式 值 的 情况 。 

可 以 考虑 下 面 的 if 语句 作为 使 用 该 文法 生成 代码 的 例子 : 


it A > B or else C « D then 
OtherS' 


else 
OtherS? 
end if 


这 个 例子 中 的 属性 计算 说 明 在 图 14-20 中 ， 它 开始 于 以 下 产生 式 对 应 的 结 点 : 
S — if E then L' else L° end if 532 
我 们 很 设 继承 属性 S.next :z L1. 这 里 仅 包 括 与 属性 计算 规则 中 的 符号 相对 应 的 结 点 的 访问 。 533 
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visit node(S): 
E.case : FALSE 
E.label:=L2 /* a new label */ 
L' .next :z L1 

L? next := L1 





visit node(E) / E — E' BoolOP E? */ 
E? label :- L2 
E? case := FALSE 
/* The next two attributes depend on right-to-left information flow, */ 
f* since the rules to generate them consider the operator BoolOp */ 
E! case := TRUE 
E1.iabel := L3 / anew label */ 


visit node(E') 
E'.code := (BR,».A.loc B.loc,L3) 
visit node(E?) 
E? code := (BR,>=,C.loc,D.loc,L2) 
E.code := (BR,>,A.loc,B.loc,L3) 
(BR,>=,C.oc,D.loc,L2) 
(LABEL,L3) 
visit_node(L ): rU os" 
S.next := L1 


visit node(S) / 5 一 OtherS */ 
S.code := (code for OtherS} 


L! code := (code for OtherS} 


visit node(l^) ^1? > S` 
S.next := L1 


visit node(S) ^5 OtherS */ 
S.code :- (code for OtherS) 


L? code := (code for OtherS} 






S.code := (BR,»,A.loc,B.loc,L3) 
(BR,>=,C.loc,D.loc,L2) 
(LABEL,L3) 

{code for OtherS} 
(JUMP,L1) 
(LABEL,L2) 

{code for OtherS} 
(LABEL.L1) 


图 14-20 使 用 图 14-19 中 属性 文法 追踪 属性 的 计算 


14.2 树 结 构 的 中 间 表 示 


作为 表达 式 树 的 推广 ， 第 8 章 里 所 讨论 的 中 间 表 示 为 整个 程序 引入 了 树 结构 的 了 想法 。 这 样 的 IR 以 
前 被 认为 是 基于 抽象 语法 树 (abstract syntax tree )。 抽 象 语法 树 是 通过 消除 分 析 树 中 那些 没有 语义 含义 
的 显 式 语法 元 素 表示 而 得 到 的 。 抽 象 语法 树 可 以 很 容易 地 被 用 作 IR 以 保存 由 多 遍 属性 计算 程序 所 使 用 的 
属性 。 | 

例如 ， 可 以 考虑 图 14-19 中 最 简单 的 放 语 名 产生 元: 

S 5 if E then L end if 
该 产生 式 的 分 析 树 具 有 如 图 14-21a 所 示 的 形式 。 作 为 对 比 ， 图 14-2lb 中 显示 了 等 价 的 抽象 语法 树 表示 。 

这 里 说 明 一 下 它们 两 者 的 基本 差别 。 首 先是 用 显 式 的 IfThenStmt 替 代 了 通用 的 语句 结 点 S。 该 替换 使 
得 从 这 个 结 点 的 名 字 就 可 能 知道 它 下 面 所 期 待 的 结构 。 尤 其 是 ， 这 种 替换 使 得 第 二 种 差别 成 为 可 能 : 所 有 
的 关键 字 都 已 被 从 结 点 ThenStmt 的 后 代 中 删除 。 而 这 个 结 点 的 名 字 则 瞳 示 着 它们 在 源 程序 中 的 存在 。 
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为 除了 它们 的 存在 ， 这 些 关 键 字 没 有 传递 任何 语义 信息 ， 所 以 在 树 中 也 就 没有 必要 显 式 地 表示 它们 。 


if Ln UN end if 


a) 简单 放 语 名 的 分 析 树 


N 
E L 
A A 


b) 简单 if 语 句 的 抽象 语法 树 
图 14-21 简单 if 语 旬 的 分 析 树 和 抽象 语法 树 


结 点 E 和 L 的 子 树 也 根据 抽象 语法 树 的 定义 做 了 类 似 的 变换 。 这 种 改变 对 以 L 为 根 的 语句 列表 子 树 的 
意义 相当 大 。 在 分 析 树 中 ， 这 棵 子 树 代表 由 产生 式 L 一 LS fL 一 S 产 生 的 语句 列表 。 因 此， 如 果 列 表 
包含 不 止 一 条 的 语句 ， 那 么 将 创建 下 一 级 的 L 结 点 ， 且 可 以 递归 地 应 用 相同 的 构造 。 而 在 抽象 语法 树 中 ， 
使 用 StmtList 结 点 指向 显 式 的 下 属 语句 结 点 列表 的 表 头 。 

如 此 描述 的 抽象 语法 树 实质 上 就 是 一 种 比分 析 树 更 为 简洁 的 源 程序 语法 的 表示 。 这 样 一 种 树 可 以 用 
作 带 有 多 所 分 析 组 成 结构 的 编译 器 中 的 语法 分 析 器 和 语义 分 析 阶段 之 间 的 接口 。 当然 ， 为 便于 语义 分 析 ， 
还 必须 添加 更 多 的 信息 。 赂 性 的 概念 很 适合 此 目的 。 我 们 可 以 把 从 结 点 全 henStmt 出 发 的 指向 表达 式 和 
语句 列表 子 树 的 指针 想像 为 结构 化 属性 (structural attribute )。 在 一 个 完整 的 属性 文法 定义 中 ， 语 句 有 代 
表 名 字 空 间 (符号 表 ) 的 继承 属性 environment， 出 现在 该 属性 里 的 语句 中 的 任何 标识 符 都 将 被 解释 。 
environment 是 一 个 语义 属性 (semantic attribute) 的 例子 。 稍 后 的 例子 将 使 用 另 一 种 属性 ， 代 码 生 成 属 
性 (code generation attribute )。 | 

除了 那些 需 用 来 传递 结构 信息 的 属性 外 ， 还 可 以 在 树 结 点 中 添加 其 他 属性 以 便 给 编译 器 的 任 一 阶段 
提供 必需 的 信息 。 例 如 ， 表达 式 子 树 综合 一 个 描述 表达 式 类 型 的 语义 属性 。 这 样 的 属性 可 被 用 于 那些 检 
查 类 型 兼容 以 加 强 静 态 语 义 约束 的 规则 中 ， 或 更 一 般 的 情况 是 用 来 解析 重 载 的 运算 符 。 语 义 属性 和 代码 
小 成 属性 通常 在 不 同 的 树 遍历 阶段 计算 ， 因 为 前 者 是 与 机 器 无 关 的 而 后 者 显然 是 与 目标 机 器 相关 的 。 


14.2.1 抽象 语法 树 接口 


通常 ， 抽 象 语法 树 是 通过 使 用 结构 来 表示 结 点 并 使 用 指针 将 结 点 链接 在 一 起 来 实现 的 。 主要 的 设计 
选择 在 于 ， 是 为 每 种 树 结 点 定义 不 同 的 类 型 ， 还 是 让 所 有 的 树 结 点 具有 单一 的 类 再。 在 后 一 种 情况 下 ， 
一 个 结 点 名 字 (node name) 域 将 用 来 区 分 可 能 的 结 点 类 型， 并 且 基 于 结 点 名 字 的 变 体 将 包含 合适 的 属 
性 。 单 一 结 点 类 型 的 使 用 是 最 常见 的 选择 ， 这 主要 是 因为 它 使 得 用 于 执行 树 追 历 的 代码 非常 简单 。 而 树 
的 遍历 ， 当 然 是 在 抽象 语法 树 上 所 做 的 最 基本 的 操作 。 
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考虑 下 面 简单 表达 式 的 文法 : 
<Exp> — «T» { <addop> «T» ) 
«T» — «P» ( <multop> «P» ) 
<P> — ID 


«add op» “一 PLUS | MINUS 

«mult op>  — TIMES į DIVIDE 

语法 上 非 终结 符 <Exp>、<T> 和 <P> 之 间 的 区 别 仅 在 于 指明 运算 符 的 优先 级 。 除 了 表示 的 是 简单 标 
识 符 或 包含 运算 符 的 树 之 外 ， 它 们 没有 语义 上 的 区 别 。 这 两 种 情况 可 以 分 别 由 称 为 leaf 和 tree 的 抽象 语 
法 树 结 点 来 表示 。 四 种 运算 符 均 有 不 同 的 语义 含义， 并 且 有 四 种 适合 于 表示 它们 的 不 同 的 结 点 类 型 。 运 
算 符 记号 的 名 字 可 以 被 当 作 树 结 点 的 名 字 。 因 此 ， 表 达 式 A+B*C 有 如 图 14-22a 所 示 的 分 析 树 、 其 抽象 语 
法 树 如 图 14-22b 所 示 。 


<Exp> 


/N 


«T» plus <T> 





<P> <P> times <P> 











leaf times leaf 
id(A) id(B) id(C) (B) (C) 
a) A+B*C 的 分 析 树 b) A+B*C 的 抽象 语法 树 


图 14-22 A+B*C 的 分 析 树 和 抽象 语法 树 
可 以 根据 采用 以 下 声明 的 单一 记录 类 型 方法 来 构造 此 图 中 显示 的 抽象 语法 树 : 


enum node type { TREE, LEAF, PLUS, MINUS, TIMES, DIVIDE }; 
typedef struct tn { 
enum node type node name; 
union ( 
/* node name == TREE */ 
struct { 
struct tn *op, *left, *right; 
}; 
/* node name == LEAF */ 
string id; 
/* anything else, empty */ 


} tree_node; 


14.2.2 语法 树 抽象 接口 


如 果 使 用 了 语法 树 抽象 接口 ， 那 么 先前 的 设计 决策 需要 不 会 对 编译 器 的 其 余部 分 产生 影响 。 通 过 使 
用 抽象 接口 (abstract interface), ， 语 义 例 程 和 代码 生成 器 不 需要 直接 访问 树 结 点 记录 的 域 。 相 反 地 ， 只 
有 通过 语法 树 “ 包 ” 中 的 过 程 或 函数 才能 从 外 面 访问 到 属性 ， 这 些 过 程 或 函数 可 以 设置 或 返回 属性 值 ， 
而 树 结 点 的 类 型 不 必 输 出 。 这 种 抽象 方法 不 仅 隐藏 了 基本 的 结构 化 设计 策略 ， 而 且 还 隐藏 了 单独 属性 的 
表示 方法 〈 例 如 ， 它 是 某 种 允许 计算 的 显 式 的 值 或 信息 )。 在 C 语 言 中 ， 这 种 过 程式 接口 实际 上 可 以 是 一 
组 安 。 这 样 既 允 许 对 属性 的 有 效 访问 又 可 以 通过 这 些 接口 继续 提供 数据 隐藏 。 





BIR EBS 


事实 上 ，Diana 是 Ada 语 言 的 一 种 标准 的 IR。 它 是 采用 诸如 刚才 所 描述 的 抽象 接口 而 定义 的 一 种 树 
结构 的 IR。 访 问 Diana 的 接口 是 采用 描述 抽象 数据 结构 的 特殊 符号 一 -接口 描述 语言 (IDL) (Nestor, 
Wulf, and Lamb 1981) 来 定义 的 。 因 为 Diana 过 于 复杂 而 不 便于 提供 简洁 的 使 用 示例 ， 所 以 我 们 将 提供 
图 14-22b 中 抽象 语法 树 的 IDL 描 述 及 和 它 所 定义 的 接口 对 应 的 C 语 言 声明 。 在 本 章 最 后 将 提供 一 个 更 复杂 
的 IDL 示 例 。 这 些 示例 说 明了 访问 抽象 语法 树 的 抽象 接口 的 概念 ， 而 这 在 Diana 中 是 最 基本 的 。 
简单 的 IDL 示 例 | 

图 14-23 中 的 第 一 个 IDL 示 例 改 编 自 《IDL 参 考 手 册 》(IDL Reference Manual)。 它 是 表示 图 14-22 中 
简单 算术 表达 式 的 抽象 数据 类 型 的 定义 。 


mode AST root EXP is 


—— first we define the notion of an expression, EXP 


EXP ::= leaf | tree ; 
—— next we define the nodes and their attributes 


tree => op : OPERATOR, left: EXP, right : EXP ; 
leaf => name : String ; 


—- finally we define the notion of an OPERATOR as the union of 
—- a collection of nodes; note these particular nodes have no 
—- attributes and hence have no further definitions 





OPERATOR ::= plus | minus | times | divide ; 


end 
图 14-23 表达 式 抽 象 语法 树 的 IDL 摘 述 


EXP 和 OPERATOR 是 类 名 字 的 示例 。 它 们 用 来 定义 树 的 结构 但 并 不 实际 在 树 中 作为 结 所 出 现 。 定 
义 的 6 种 结 点 为 : tree. leaf. plus, minus, times#idivide. 它们 当中 的 每 一 个 都 可 以 作为 树 的 结 点 出 
现 。 这 其 中 只 有 tree 和 leaf 结 点 有 属性 ， 它 们 属性 的 名 字 和 类 型 各 由 两 行 属性 定义 给 出 。leaf 结 点 的 名 字 
属性 的 类 型 String 是 IDL 的 内 建 类 型 。 而 EXP (由 稍 后 出 现 的 tree 或 leaf 定 义 ) 作为 树 的 根 这 一 事实 则 由 
标题 行 来 指定 。 

对 应 图 14-23 中 IDL 描 述 的 C 语 言 声明 如 图 14-24 所 示 。 















/* specification of AST x/ 
typedef struct tn { 

tot /* contents are "private" */ 
) tree node; 


typedef enum { 
TREE, LEAF, PLUS, MINUS, TIMES, DIVIDE 


) node name; 

/* 

* Tree constructors. Pointers are used both for 

| * efficiency and due to C's call-by-value semantics. 
*/ 

tree_node *make (node_name n); 

void destroy (tree_node *t); 

node_name kind (tree node *t); 

/* 

* The following procedure/function pairs are used to 

* set and access attributes of nodes. 

xf / 





图 14-24 与 图 14-23 对 应 的 C 语 言 声 明 
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void set_op(tree_node *node, tree node *value): 
tree node *get op(tree node *node); 


void set left(tree node *node, tree node *value); 
tree node *get "left (tree : | node *node); 

void set right(tree node *node, tree ' node *value); 
tree node *get right(tree node *node); 

void set name(tree node *node, string value): 
string *get name (tree ; | node *node) ; 





图 14-24 (f£) 


给 定 这 些 声明 ( 见 图 14-24)， 在 图 14-25 中 的 调用 序列 将 构造 与 A+B*C 对 应 的 树 ， 其 中 假定 变量 T1、 
T2、T3、T4 和 T5 的 类 型 为 (tree_node*)。 这 些 代码 主要 是 说 明 那 些 进行 语法 树 构 造 以 及 属性 设置 的 过 
程 和 函数 的 使 用 。 


Tl = make (LEAF) ; 

set name (T1, "A"); 

T2 = make (LEAF) ; 

set_name(T2, "B"); 

T3 = make (LEAF) ; 

set name(T3, "C"); 

T4 = make (TREE) ; 

set left (T4, T2): 

set right(T4, T3); 

set op(T4, make(TIMES)); /* T4 is the tree for B*C */ 
T5 = make (TREE) ; 

set op(T5, make (PLUS)): 

set left(T5, T1): 

set right(T5, T4); /* T5 is the tree for A*B*C */ 





图 14-25 使 用 AST 例 程 构造 的 抽象 语法 树 


图 14-26 中 的 过 程 Postfix( ) 使 用 来 自 图 14-24 中 相同 的 例 程 做 表达 式 树 的 遍历 以 及 输出 表达 式 的 后 
缀 表示 。 该 例子 所 强调 的 是 那些 访问 树 结 点 属性 的 函数 。 


void postfix(tree node *t) 


switch (kind(t)) { 

case LEAF: printf(" %s", name(t)); break; 

case PLUS: printf(" +"); break; 

case MINUS: printf(" -"); break; 

case TIMES: printf(" *"); break; 

case DIVIDE: printf(" /"); break; 

case TREE: postfix(get left(t)): 
postfix(get right (t)); 


postfix(get op(t)):; 
break; 





图 14-26 表示 为 AST 的 表达 式 的 后 缀 打印 


短路 计算 示例 的 IDL 定 义 

图 14-27 包 含 图 14- 19 中 短路 计算 属性 文法 需要 的 抽象 语法 的 IDL 定 义 。 该 定义 的 一 个 重要 特性 是 将 
属性 定义 划分 为 两 部 分 : 定义 树 结构 的 属性 和 用 来 驱动 代码 生成 处 理 的 属性 。Diana, 这 个 Ada 语 言 的 IR， 
也 采用 这 种 定义 ， 但 Diana 的 定义 区 分 四 种 不 同 的 属性 : 结构 属性 、 词 法 属性 (这 种 信息 允许 精确 重建 
源 程序 )、 语 义 属性 和 代码 生成 属性 。 

在 这 个 示例 中 使 用 了 IDL 的 另 一 个 新 特性 。StmtList 结 点 列表 的 属性 采用 序列 类 型 (Seq) 定义 。 
而 在 与 包含 序列 类 型 的 IDL 描 述 相对 应 的 C 语 言 声明 中 必须 包括 操作 这 些 序 列 的 函数 。 








mode SyntaxTree root STMT is 


STMT ::= ffThenStmt | If ThenElseStmt | WhileStmt | OtherStmt ; 
LIST ::= StmtList ; 
EXP ::= BoolExp | Negation | Parens | RelExp | TrueExp | FalseExp ; 


-- The following attributes define the structure of the abstract syntax tree 
—— for statements 


IfThenStmt => condition : EXP, thenpart : LIST ; 

IfThenElseStmt => condition : EXP, thenpart : LIST, elsepart : LIST ; 
WhileStmt => condition : EXP, loopbody : LIST ; 

StmtList => list : Seq of STMT ; 


BoolExp => left: EXP, operator : BOOLOP, right : EXP ; 
RelExp => left : EXP, operator : RELOP, right : EXP ; 
Negation => expression : EXP ; | 


Parens -» expression : EXP ; 


—— the following declarations are of the attributes used by the 
-- code-generation process encoded in the attribute grammar 


IfThenStmt => next : String, code : String ; 
IfThenElseStmt => next : String, code : String ; 
WhileStmt => next : String, begin : String, code : String ; 
OtherStmt => code : String ; 


BoolExp => case : Boolean, label : String, code : String ; 
Negation => case : Boolean, label : String, code : String ; 
Parens «» case : Boolean, label : String, code : String ; 
RelExp => case : Boolean, label : String, code : String ; 
TrueExp => case : Boolean, label : String, code : String ; 
FalseExp => case : Boolean, label : String, code : String ; 


end 





图 14-27 表示 图 14-19 中 文法 的 IDEL 定 义 


图 14-28 中 的 声明 是 与 图 14-27 中 IDL 定 义 相对 应 的 C 语 言 接口 。 它 们 是 基于 标准 的 程序 模板 ， 其 中 
包括 创建 和 操作 树 和 序列 所 需 的 类 型 及 子 程序 。 类 型 node_name 以 及 那些 设置 并 访问 属性 的 子 程序 的 声 
明 当 然 是 基于 这 个 特定 的 IDL 定 义 的 。 


/* specification of SyntaxTree */ 


typedef struct tn { 
P /* contents are "private" */ 


) tree node; 


typedef : - ^| seq type; /* also private */ 


typedef enum ( 
IFTHENSTMT, IFTHENELSESTMT, WHILESTMT, OTHERSTMT, 


STMTLIST, BOOLEXP, NEGATION, PARENS, RELEXP, TRUEEXP, 
FALSEEXP); 
) node name; 


/* 
* Tree constructors. Pointers are used both for 
* efficiency and due to C's call-by-value semantics. 


*/ 


tree node *make(node name n); 


void destroy(tree node *t); 
node name kind(tree node *t); 


/* handling of list constructs (for STMTLIST) */ 





图 14-28 与 图 14-27 对 应 的 C 语 言 声明 
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tree node *head(seq type *1); 

seq type *tail(seq type *1); 

seq type *seq make(void); /* returns an empty list */ 
boolean is empty(seq type *1); 

/* inserts t at start of 1 */ 

seq type *insert (seq type *1, tree node *t); 

/* inserts t at end of 1 */ 

seq type *append(seq type *1, tree node *t); 


The following procedure/function pairs are used to set 
and access attributes of nodes. The first group deals 
with the attributes that define the structure of the 
abstract syntax tree. 


void set condition(tree node *node, tree node *value); 
void set _thenpart (tree node *node, tree node *value); 


tree node *get condition (tree node *node) ; 
tree node *get thenpart (tree node *node) ; 


. /* similar subprograms for elsepart, loopbody */ 
. /* list, left, right, operation and expression */ 


/* 

* This second group of procedures and functions handies 

* the attributes that drive the code-generation algorithm. 
* Different nodes that have attributes with the same name 
* may share a pair of these routines, since all nodes are 
* tree nodes. 

*/ 


void set next (tree node *node, string value) ; 
string get_: “next (tree i node *node): 
void set code(tree | node *node, string value): 
string get ' code (tree ; “node *node); 


/* similar subprograms for begin, label and case */ 





图 14-28 (£X) 


14.2.8 实现 树 


通常 ， 我 们 认为 树 结构 的 中 间 表 示 需 要 很 大 的 存储 空间 。 其 实 这 种 看 法 未 必 准确 。 如 果 使 用 最 常见 
的 编译 器 组 织 结构 ， 即 前 端 产 生 整个 程序 的 树 形 表 示 (每 个 结 点 被 表示 成 动态 分 配 的 变 体 记录 )， 那 么 
即使 是 大 小 适度 的 程序 也 会 需要 相当 大 的 存储 空间 。 尽 管 存 储 需 求 是 一 个 重要 的 问题 ， 但 采用 其 他 形式 
的 编译 器 组 织 仍然 是 有 可 能 的 。 

如 果 仅 需要 做 有 限 的 优化 (或 根本 不 做 )， 那 么 可 以 这 样 来 组 织 编译 器 ， 即 让 它 的 构件 ( 像 在 一 遍 
编译 器 中 那样 ) 作为 协同 例 程 运行 。 程 序 的 某 些 部 分 (通常 是 过 程 或 函数 ) 分 别 由 每 个 部 件 来 处 理 而 它 
们 的 树 则 被 抛弃 。 这 种 处 理 将 一 直 重复 到 整个 程序 被 编译 完 为 止 。 

与 在 任何 时 刻 为 节省 空间 而 仅 保存 部 分 树 的 方法 相 比 ， 有 多 种 其 他 的 方法 可 用 来 以 更 紧凑 的 方式 保 
存 整个 树 。 语 法 树 可 被 线性 化 〈( 如 采用 后 缀 表示 )， 例 如 ， 为 了 节省 指针 可 能 需要 的 空间 ， 在 这 种 表示 
中 子 结 点 可 以 被 隐 式 地 放置 在 与 结 点 相关 的 位 置 上 。 线 性 化 表示 简化 了 某 些 形式 的 树 遍历 〈 通 常 从 左 到 
右 )， 但 所 付 代价 是 使 得 普通 的 遍历 更 加 昂贵 。 线 性 表示 作为 树 的 外 部 表示 形式 时 很 有 用 ， 因 为 它们 消 
除了 来 自 典型 指针 实现 中 的 内 存 地 址 的 依赖 性 。 

另 一 种 节省 空间 的 技术 是 通过 共享 相同 的 子 树 而 将 一 棵 语法 树 转 换 成 有 向 无 环 图 (dag)。 最 明显 的 
可 共享 的 结 点 是 表示 文字 字面 值 特别 是 标识 符 的 叶子 结 点 。 然 而 ， 还 有 更 多 有 价值 的 子 树 可 被 共享 ， 前 








提 条 件 是 可 以 识别 它们 。 


最 后 ， 某 些 平凡 的 结 点 根本 不 需要 被 表示 为 结 点 。 例 如 ，AST 示 例 中 的 OPERATOR 类 的 结 点 就 没 


有 属性 。 它 们 惟一 的 意义 在 于 表示 各 种 不 同 的 运算 符 。 对 这 样 的 tree 结 点 的 引用 可 以 被 优化 掉 ， 替 代 的 
方法 是 用 一 个 存储 在 tree 结 点 中 实现 为 小 整数 的 简单 枚 举 类 型 的 值 来 代替 指向 实际 结 点 的 指针 。 


练习 


l. 


根据 14.2 节 中 的 示例 ， 对 于 给 定 的 描述 语言 具体 语法 的 文法 ， 非 形式 化 地 提出 能 推导 出 合适 抽象 语 
法 树 表示 的 一 般 算 法 。 它 能 自动 进行 这 个 推导 吗 ? 


.在 14.1 节 中 的 所 有 示例 文法 里 ， 属 性 计算 规则 将 计算 完整 语法 树 上 的 结 点 的 属性 。 应 如 何 扩展 你 在 


练习 1 中 提出 的 算法 来 处 理 计 算 规 则 的 变换 以 应 用 于 导出 的 抽象 语法 树 ? 将 你 的 算法 应 用 到 文法 G1 

和 G3 以 检验 它 的 正确 性 。 
使 用 图 14-19 中 的 文法 ， 追 踪 以 下 程序 的 属性 计算 (使 用 图 14-20 的 格式 ): 

while not (A = B) and then C < D loop 


OtherS; 
if A /= B then 


end loop: 


， 图 14-25 和 图 14-26 中 的 过 程 说 明了 语法 树 抽象 接口 的 使 用 。 编 写 一 个 执行 等 价 功 能 的 过 程 ， 它 使 用 


14.2.1 节 中 由 tree _ node 直接 定义 的 接口 。 


借助 分 析 或 实验 来 确定 : 在 使 用 14.2.3 节 中 讨论 的 语法 树 的 实现 优化 时 ， 诸 如 子 树 共享 或 平 几 结 所 出 


除 所 能 带 来 的 空间 节省 的 量 级 。 545 





第 15 章 代码 生成 和 局 部 代码 优化 


15.1 概述 


在 我 们 所 开发 的 编译 器 模型 中 ， 综 合 部 分 被 划分 为 翻译 和 代码 生成 这 两 个 不 同 的 阶段 。 这 种 方法 有 
许多 优点 。 最 为 重要 的 是 ， 被 编 人 到 编译 器 语义 例 程 里 的 翻译 阶段 具有 高 度 的 源 程 序 依赖 性 ， 而 代码 生 
成 阶段 则 是 与 目标 机 器 相关 的 。 如 果 要 进行 再 目标 (改变 目标 机 器 ) ， 则 保持 它们 之 间 的 清晰 界限 是 非 
常 重要 的 。 即 使 再 目标 不 是 最 初 关心 的 问题 ， 但 在 编译 器 被 证 明 是 成 功 的 之 后 ， 经 常会 出 现 将 它 移 植 到 
新 机 器 上 或 已 有 机 器 的 新 版 本 上 的 要 求 。 因 此 ， 在 源 程序 和 目标 机 器 之 间 提 供 清晰 划分 的 设计 也 就 是 考 
虑 到 了 未 来 的 需要 。 

最 简单 的 代码 生成 器 就 是 根本 没有 代码 生成 器 ! 这 看 起 来 有 些 滑稽 ， 但 确实 有 这 么 一 些 场 合 要 求 纺 
译 器 仅 产生 中 间 表 示 (IR) 代码 而 非 实际 的 目标 代码 。 

简单 编译 器 或 许 会 产生 可 在 执行 阶段 解释 的 树 结构 。 这 样 的 编译 器 被 设计 用 在 程序 被 频繁 修改 和 
重新 编译 的 教学 环境 中 。 这 时 执行 速度 并 不 重要 ， 因 为 程序 测试 仅 使 用 相当 简单 的 数据 且 只 需 〔 成 功 ) 
运行 若干 次 即 可 。 然 而 ， 因 为 需要 很 频繁 地 重新 编译 ， 所 以 编译 速度 就 显得 很 重要 ， 这 时 放弃 代码 生成 
阶段 和 稍 后 的 链接 、 装 入 阶段 也 许 是 有 利 的 。 该 折 中 方案 是 以 较 慢 的 执行 换取 快速 的 编译 ， 且 在 教学 或 
调试 环境 中 这 种 净 收 益 颇 丰 。 

另 一 个 产生 琢 代 码 而 非 目标 代码 的 较 好 的 编译 器 示例 是 Pascal P- $42 H (P-Compiler). P-E a 
被 设计 为 高 度 可 移植 的 ， 它 通过 为 称 作 虚 拟 栈 机 器 (Virtual Stack Machine, VSM) 的 假想 的 栈 机 器 生成 
P_ 代 码 (P-code) 来 达到 这 一 目标 。P- 代 码 的 设计 简单 而 紧凑 。P- 编 译 器 采用 了 源 形式 (Pascal JT.) 
和 目标 形式 (P- 代 码 ) 两 种 形式 分 发 。 

为 将 P- 编 译 器 移植 到 新 机 器 上 ， 需 要 首先 编写 P- 代 码 的 解释 器 。( 这 项 工作 估计 要 花 大 约 一 个 月 时 
i.) 一 日 P- 代 码 解释 器 可 用 ， 就 可 以 执行 P- 编 译 器 的 目标 形式 ，Pascal 程 序 也 因此 可 以 被 编译 并 执行 。 
进一步 地 ， 由 于 可 以 获得 P- 编 译 器 的 源 代码 ， 因 此 也 就 可 以 修改 并 重新 编译 该 编译 器 本 身 。 通 贡 ， 下 一 
步 是 针对 P- 代 码 的 代码 生成 器 的 实现 ， 这 样 就 在 新 机 器 上 产生 了 真正 的 Pascal 编 译 器 。 估 计 现 行 所 有 
Pascal 编 译 器 中 的 50%~70% 均 是 这 个 原始 的 P- 编 译 器 的 直系 后 代 。 

翻译 耻 到 目标 代码 的 最 简单 方法 是 将 每 个 耻 元 组 或 子 树 宏 展开 为 等 价 的 目标 机 器 指令 序列 。 目 标 代 
码 序列 挑选 时 特有 的 情况 分 析 与 选择 可 以 用 多 种 方式 来 组 织 。 正 如 15.3 节 中 说 明 的 那样 ， 可 以 为 每 个 元 
组 或 子 树 编写 不 同 的 代码 生成 器 。 其 他 一 些 方法 包括 使 用 一 组 用 特殊 的 编码 语言 《Wilcox 1971) 编写 
的 互相 递归 的 模板 例 程 ， 以 及 带 有 模板 匹配 例 程 的 模板 表 (Johnson 1978). 

记 展 开 方 法 的 主要 缺点 是 它 可 能 相互 独立 地 展开 每 一 条 人 指令 从 而 产生 较 差 质量 的 代码 。 例 如 ， 给 
定 元 组 (+,A,B,C) 和 (*,C,D,E),“ 傻 瓜 ” 式 的 代码 生成 器 将 某 个 求 和 的 值 存储 到 C 中 ， 然 后 立即 又 从 C 
册 再 次 取出 该 值 并 用 到 下 个 元 组 的 展开 中 。 为 提高 代码 质量 ， 必 须 在 展开 巨 代码 时 维持 某 些 上 下 文 信息 
或 状态 ， 以 禁止 那些 不 必要 的 或 质量 差 的 代码 序列 。 

把 代码 生成 看 成 IR 代 码 宏 展 开 的 另 一 个 问题 是 ， 有 时 多 于 一 条 的 IR 指 令 可 被 单个 的 目标 机 器 指令 
所 替代。 这 种 情况 一 般 发 生 在 目标 机 器 有 丰富 的 寻 址 模式 ， 或 有 能 将 多 个 操作 捆绑 在 单个 指令 中 的 奇 
特 指 令 时 (例如 ， 能 完成 寄存 器 增值 、 检 测 和 条 件 跳 转 的 单条 循环 控制 指令 )。 
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考虑 Pascal 语 旬 A := P1;， 如 果 有 间接 寻 址 (指令)， 那 么 该 语句 能 被 很 好 地 翻译 为 单条 指令 。 并 
不 是 所 有 的 机 器 都 支持 间接 寻 址 ， 因 此 编译 器 在 IR 一 级 也 许 会 产生 后 面 跟着 存储 指令 的 间接 到 值 指令 。 
应 该 由 代码 生成 器 人 负责 判定 单个 目标 机 器 指令 能 否 获 得 这 两 条 IR 指 令 的 效果 。 

IR 代 码 〈 如 元 组 或 P- 代 码 ) 通常 比 等 价 的 目标 机 器 指令 更 紧凑 ， 因 为 它们 经 过 特别 设计 可 以 用 来 
表示 已 编译 过 的 源 代 码 。 代 码 紧 凑 是 一 个 优点 但 如 果 要 解释 它们 的 话 ， 执 行 速度 将 会 相当 慢 。 如 采 使 
用 了 线索 化 代码 (threaded code) 方法 《Bell，1973)， 则 有 可 能 在 紧凑 代码 和 快速 执行 之 间 找 到 一 个 有 
趣 的 平衡 。 在 线索 化 代码 中 ， 每 个 IR 指 令 将 被 替换 为 一 个 实现 IR 指 令 的 支持 例 程 的 调用 (如果 有 参数 ， 
则 紧 随 该 调用 之 后 )。 在 执行 指令 后 ， 实 现 例 程 使 用 返回 地 址 选择 下 一 个 IR 指 令 ， 而 那 又 是 某 个 实现 例 
程 的 调用 。 程 序 的 控制 在 一 系列 实现 所 生成 的 IR 代 码 的 例 程 调用 中 妈 过 。 每 个 IR 指 令 仅 需要 一 种 实现 ， 
且 程 序 大 小 比 采 用 宏 展 开 方 式 所 得 到 的 要 小 得 多 。 同 时 ， 程 序 执行 也 比 IR 代 码 的 解释 执行 快 得 多 ， 这 是 
因为 惟一 的 开销 就 是 每 个 IR 指 令 所 需 的 调用 和 返回 〈 两 条 指令 )。 事 实 上 ， 线 索 化 代码 是 引起 众多 关注 
的 创新 语言 Forth (Brodie 1981) 的 基础 。 


15.2 寄存 器 和 临时 变量 管理 


在 第 11 章 中 ， 我们 提出 了 一 种 非常 抽象 的 临时 变量 分 配方 法 。 借 助 这 种 方法 ， 临 时 变量 的 分 配 仅 涉 
及 为 其 指派 惟一 的 索引 且 存 储 基本 的 大 小 和 类 型 信息 。 所 有 临时 变量 管理 的 复杂 工作 是 交 由 代码 生成 器 
完成 的 ， 代 码 生 成 器 必须 将 临时 变量 映射 到 寄存 器 并 生成 有 效 利用 寄存 器 的 代码 。 

编译 器 临时 变量 是 在 有 限时 间 里 被 指派 的 位 置 ， 目 的 是 保存 与 当前 计算 相关 的 数据 。 通 常 ， 临 时 变 
量 是 寄存 器 ， 但 是 驻 留 内 存 的 存储 型 临时 变量 有 时 也 是 必需 的 。 编 译 器 必须 小 心 管理 临时 变量 以 避免 在 
它们 使 用 上 的 冲突 。 | 

通常 ， 特 定 机 器 上 可 用 的 寄存 器 被 划分 为 若干 类 : 可 分 配 寄存 器 (allocatable register). 7 8 dA 
器 (reserved register) 和 易 变 寄存 器 (volatile register). 

可 以 在 编译 时 通过 调用 寄存 器 管理 例 程 来 显 式 地 分 配 和 释放 可 分 配 寄 存 器 。 在 分 配 以 后 ， 除 了 寄存 
器 的 “拥有 者 ”以 外 ， 我 们 将 对 寄存 器 进行 使 用 保护 。 因 此 ， 这 就 保证 了 寄存 器 所 包含 的 数据 项 不 会 被 
相同 寄存 器 的 其 他 使 用 不 正确 地 修改 。 

可 分 配 寄 存 器 的 请 求 通常 很 普通 ; 也 就 是 说 ， 这 样 的 请 求 是 申请 获得 某 个 寄存 器 类 中 的 任何 一 个 寄 
存 器 而 不 是 其 中 某 个 特定 的 寄存 器 。 通 常 ， 一 个 寄存 器 类 中 的 任何 一 个 寄存 器 均 会 满足 要 求 。 而 且 ， 如 
果 请 求 的 特定 寄存 器 已 被 占用 而 在 同一 寄存 器 类 中 还 有 其 他 许多 寄存 器 可 用 ， 那 么 采用 这 种 普通 的 请 求 
将 消除 由 此 而 引起 的 问题 。 | 

-一 昌 分配 了 某 个 寄存 器 ， 就 必须 在 它 到 特定 临时 变量 的 指派 完成 时 释放 它 。 通 常 ， 我 们 通过 语义 例 
程 发 出 的 free_temp( ) 命 令 来 释放 寄存 器 。free_temp ( ) 命 令 也 允许 我 们 标记 寄存 器 的 最 后 一 次 使 用 
为 “ 非 活跃 的 ”(dead)。 正 如 我 们 将 看 到 的 ， 这 是 一 个 有 价值 的 信息 ， 因 为 如 果 寄 存 器 的 内 容 不 再 需要 
保存 ， 就 有 可 能 生成 更 好 的 代码 。 

另 一 方面 ， 保 留 寄 存 器 和 易 变 寄存 器 从 不 会 被 显 式 地 分 配 和 释放 。 指 派 到 固定 函数 的 保留 寄存 器 将 
贯穿 程序 执行 的 始终 。 它 们 包括 显示 表 寄 存 器 、 栈 顶 寄存 器 和 用 于 给 子 例 程 传递 信息 的 寄存 器 。 

易 变 寄存 器 可 在 任何 时 刻 被 任何 例 程 使 用 。 易 变 寄存 器 仅 在 局 部 代码 序列 中 可 以 完全 地 使 用 ， 这 一 
点 是 由 代码 生成 器 完全 掌控 的 。 也 就 是 说 ， 如 果 我 们 正 生 成 数组 上 索引 操作 (如 A(l + J)), 那么 此 时 使 
用 易 变 寄存 器 保存 数组 元 素 的 地 址 将 是 错误 的 ， 因 为 下 标 计算 也 许 会 改变 那个 易 变 寄存 器 。 若 使 用 可 分 
配 寄 存 器 ， 则 它们 当然 会 被 加 以 保护 。 

易 变 寄 存 器 在 以 下 几 种 场合 中 还 是 很 有 用 的 : 

。 需要 非常 短暂 时 间 的 工作 单元 。( 例如， 在 编译 A := B 时 ， 我 们 将 B 的 值 装 入 某 个 寄存 器 ， 然 后 把 
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该 寄存 器 内 容 保 存 到 A。) 使 用 易 变 寄存 器 将 节省 分 配 、 紧 接着 又 释放 临时 变量 的 开销 。 
。 有 时 ， 寄 存 器 被 创建 到 一 条 指令 中 。 例 如 ， 许 多 计算 机 在 诸如 块 传送 的 多 字 指 令 中 使 用 指定 的 寄 
存 器 来 保存 指针 和 字 节 数 。 这 些 值 必须 被 放置 在 程序 员 可 访问 的 寄存 器 中 “与 程序 员 不 可 访问 的 
内 部 的 “ 微 引 擎 ”寄存 器 不 同 ) ， 是 因为 这 样 的 指令 可 以 在 执行 中 被 中 断 。 然 而 ， 指 令 格式 可 能 没 
有 足够 的 域 允许 程序 员 显 式 地 指定 寄存 器 。 为 达到 此 目的 ,许多 计算 机 的 体系 结构 通过 预 留 某 些 
寄存 器 来 解决 这 个 潜在 的 问题 。 例 如 ， 在 VAX 机 器 上 ， 一 条 多 字 传 送 指令 修改 0 ~ 4 号 寄存 器 。 如 
果 可 用 寄存 器 的 总 数 较 少 ， 那 么 编译 器 可 以 选择 避免 使 用 这 样 的 指令 以 便 让 更 多 的 寄存 器 用 于 分 
配 ， 或 者 编译 器 仅 在 某 些 特殊 的 上 下 文中 使 用 这 些 指 令 ， 在 每 次 使 用 的 前 后 或 许 要 保存 和 恢复 相 
关 的 寄存 器 。 
编译 器 设计 中 重要 的 一 环 是 决定 如 何 分 配 可 用 的 寄存 器 。 某 些 寄 存 器 被 预 留用 在 显示 表 中 ， 或 用 来 
保存 运行 时 栈 顶 ， 或 保存 调用 过 程 中 的 信息 。 而 其 他 的 寄存 器 则 是 可 分 配 的 或 是 易 变 的 。 如 何 划 分 寄存 
器 的 决定 主要 是 基于 可 用 寄存 器 的 个 数 (如 果 不 止 一 种 分 类 的 话 ， 也 包括 它们 的 种 类 ) 和 系统 的 约定 。 
在 产品 化 编译 器 中 ， 这 种 选择 很 重要 且 应 当 谨慎 处 理 。 


15.2.1 临时 变量 的 分 类 


正如 我 们 已 看 到 的 ， 可 以 将 临时 变量 划分 成 若干 类 。 存 储 型 临时 变量 很 适合 保存 寄存 器 或 保持 大 的 
数据 对 象 。 根 据 硬件 设计 ， 寄 存 器 可 以 包括 一 个 或 多 个 类 。( 例 如 ，Univac 1100 机 器 有 三 个 不 同 的 寄存 
器 类 ， 其 中 的 两 个 有 部 分 重合。) 因此 ， 我 们 希望 对 临时 变量 分 配 例 程 的 请 求 要 指定 所 需 的 临时 变量 的 
数目 和 种 类 。 | 

我 们 还 必须 处 理 某 类 临时 变量 中 已 无 可 用 临时 变量 的 这 种 可 能 性 。 如 果 发 生 这 种 情况 ， 那 么 作为 一 
种 替代 处 理 办 法 ， 可 用 一 种 简单 但 立即 响应 的 方式 终止 编译 或 代码 生成 。 如 果 耗 尽 某 类 临时 变量 的 可 能 
性 较 小 的 话 ， 这 种 响应 或 许 是 一 种 很 好 的 办 法 。 然 而 ， 一 种 更 健壮 的 分 配 例 程 可 以 选择 另外 种 类 的 蛋 时 
变量 而 不 只 是 报告 失败 。 多 数 时 候 ， 当 这 种 情况 发 生 时 将 返回 存储 型 临时 变量 作为 对 寄存 器 请 求 的 回应 。 
这 样 的 临时 变量 可 被 用 作伪 寄存 器 (pseudoregister)。 在 看 见 对 伪 寄 存 器 的 引用 时 ， 代 码 生 成 器 将 其 次 入 
一 个 易 变 寄存 器 中 ,生成 使 用 该 易 变 寄存 器 的 指令 ， 然 后 将 易 变 寄存 器 的 值 写 回 伪 寄 存 器。 为 伪 寄 存 器 
生成 的 代码 的 质量 可 能 很 差 ， 但 是 这 种 方法 比 放弃 要 好 得 多 。 

临时 变量 从 真实 寄存 器 重新 指派 到 伪 寄 存 器 称 为 溢出 spilling )。 判 断 哪 一 个 临时 变量 将 会 溢出 是 
一 件 困难 的 事 ， 我 们 准备 在 15.4.3 节 中 讨论 它 。 直 觉 上 ， 我 们 希望 溢出 那些 最 不 重要 的 临时 变量 ， 这 里 
我 们 经 常 使 用 最 近 很 少 引 用 这 样 一 种 依据 。 在 语义 例 程 级 调用 的 free_temp( ) 极 大 地 简化 了 寄存 絮 洲 出 
的 问题 ， 其 中 不 再 需要 的 临时 变量 被 显 式 地 标识 出 来 。 没 有 这 样 的 标识 ， 非 活跃 的 临时 变量 最 终 仍 将 会 
溢出 ， 而 代价 则 是 (不 必要 地 ) 将 它们 的 值 转移 到 伪 寄 存 器 中 。 

实践 中 ， 存 储 型 临时 变量 在 数目 上 实际 不 受 限制 ,但 也 需要 对 它们 加 以 谨慎 的 分 配 。 特 别 古 : 

。 存 储 型 临时 变量 必须 被 分 配 在 局 部 活动 记录 中 ， 而 不 是 全 局 区 域 中 。 否 则 ， 递 归 过 程 可 能 失败 。 

,在 需要 的 时 候 ， 可 以 通过 在 编译 时 扩展 活动 记录 大 小 而 在 局 部 活动 记录 中 创建 空间 。 实 际 上 ， 那 

些 隐 式 的 声明 就 是 为 存储 型 临时 变量 而 生成 的 。 


15.2.2 分 配 和 释放 临时 变量 


为 分 配 临 时 变量 ， 我 们 通常 保持 一 个 可 用 临时 变量 池 或 集合 。 可 用 寄存 器 可 在 一 个 集合 (在 C 语 言 
中 可 能 是 位 图 ) 中 被 维护 ; 存储 型 临时 变量 将 被 保存 在 一 个 表 中 ， 这 个 表 能 够 指示 它们 在 活动 记录 中 的 
大 小 和 偏 移 。 临 时 变量 分 配 和 释放 通常 遵守 先 分 配 后 释放 (LIFO 或 栈 ) 的 规则 。 也 就 是 说 ， 仅 当 R,， 
R o, Ro 在 使 用 时 才 分 配 Ri。 然 而 ， 在 某 些 情况 下 这 种 栈 式 规则 会 遭 到 破坏 ， 特 别 是 在 使 用 优化 的 
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时 候 。 因 为 使 用 临时 变量 集合 的 更 一 般 的 分 配 技 术 非常 容易 编程 实现 ， 所 以 这 是 一 项 被 推荐 的 技术 。 

在 代码 生成 期 间 ， 寄 存 器 临时 变量 处 于 以 下 三 种 状态 之 一 : ADH (unallocated), RK (live) 和 
非 活路 (dead)。 未 分 配 的 寄存 器 临时 变量 是 那些 尚未 被 指派 到 某 个 实际 寄存 器 的 临时 变量 。 寄 存 器 指 
派 通常 要 被 推迟 ， 直 到 涉及 该 临时 变量 的 代码 必须 要 生成 的 时 候 。 这 种 延迟 允许 引用 寄存 器 的 上 不 文 来 
改变 有 关 的 指派 。( 例如 ， 索 引 寄 存 器 或 奇数 编号 的 寄存 器 可 用 来 生成 一 条 特定 的 指令 ) 

活跃 的 寄存 器 临时 变量 是 那些 已 被 分 配 到 某 个 寄存 器 中 、 且 其 值 必 须要 加 以 保护 的 临时 变量 。 类 似 
地 ， 非 话 跃 的 寄存 器 临时 变量 是 那些 已 被 分 配 、 但 其 值 已 不 再 需要 的 临时 变量 。 


15.3 简单 的 代码 生成 器 


现在 ， 我 们 考虑 一 个 简单 代码 生成 器 的 设计 ， 它 使 用 元 组 作为 IR。 我 们 给 每 个 元 组 均 提 供 一 个 代码 
生成 器 ， 从 而 使 全 部 的 代码 生成 任务 模块 化 。 每 个 元 组 生成 器 负责 为 关联 的 IR 元 组 生成 可 能 的 最 佳 月 标 
代码 。 这 样 做 时 ， 它 必须 执行 以 下 三 个 子 任务 : 

* 指令 选择 

+ 地 址 模式 选择 。 

+ 寄存 器 分 配 . 

这 三 个 任务 紧密 相 联 。 通常， 目标 机 器 指令 仅 允许 使 用 可 用 的 寻 址 模式 的 子 集 。 例 如 ， 许 多 机 器 多 
许 寄存 器 到 寄存 器 或 存储 器 到 寄存 器 的 加 法 ， 但 不 允许 存储 器 到 存储 器 的 加 法 。 这 种 限制 意味 着 用 于 访 
问 操作 数 的 地 址 模式 将 影响 实现 元 组 的 指令 的 选择 。 类 似 地 ， 许 多 指令 要 求 使 用 寄存 器 ; 有 时 还 规定 使 
用 特殊 的 寄存 器 〈 例 如， 索引 寄存 器 或 奇偶 寄存 器 对 。 ) 如 何 指派 寄存 器 到 临时 变量 会 强烈 地 影响 可 被 
生成 的 指令 的 种 类 。 

元 组 生成 器 按 如 下 方式 组 织 。 寻 址 模式 是 那些 与 数据 对 象 的 语义 记录 中 的 操作 数 〈 字 面值、 索引 、 
间接 、 临 时 变量 ) 相关 联 的 模式 。 每 个 元 组 操作 数 包 含 这 个 信息 ， 我 们 可 以 将 其 映射 到 硬件 寻 址 模式 。 
实际 上 ， 生 成 器 实现 的 是 一 个 决策 表 ， 该 表 是 通过 与 元 组 操作 数 关联 的 寻 址 模式 的 组 合 来 索引 的 。 元 组 
生成 器 与 寄存 器 分 配器 相配 合 将 临时 变量 绑 定 到 实际 的 寄存 器 。 

为 说 明 可 能 出 现 的 复杂 情况 ， 假 设 我 们 有 一 台 具有 寄存 器 、 索 引 和 立即 寻 址 模式 的 机 器 。 寄 存 器 操 
作 数 被 表示 为 "。 索 引 地 址 被 表示 为 d(r)， 其 中 d 是 一 个 无 符号 的 偏 移 值 ， 而 是 索引 寄存 器 。 立 即 地 址 被 
表示 为 #s， 其 中 s 是 一 个 有 符号 值 。 我 们 将 大 致 描述 操作 符 + 的 基于 元 组 的 生成 器 ， 假 定 此 时 我 们 有 寄存 
器 到 寄存 器 、 存 储 单元 到 寄存 器 和 字面 值 到 寄存 器 的 加 法 。 也 就 是 说 ， 一 个 寄存 器 或 者 存储 单元 的 内 容 
或 者 字面 值 GR) 可 被 加 到 一个 寄存 器 中 (目的 )， 所 求 的 和 被 存放 在 这 个 目的 寄存 器 中 。 同 时 ， 我 们 
还 假定 有 寄存 器 的 装 入 和 存储 指令 。 

+ 的 生成 器 取 三 个 操作 数 描述 符 并 生成 合适 的 代码 序列 。 两 个 加 数 可 以 采用 5 种 寻 址 模式 中 的 任何 一 
种 (字面 值 、 索 引 、 间 接 、 活 跃 寄 存 器 和 非 活跃 寄存 器 )， 且 结果 可 以 是 4 种 寻 址 模式 中 的 任何 一 个 ( 索 
引 、 间 接 、 活 跃 寄 存 器 和 未 指派 寄存 器 )。 这 意味 着 可 能 出 现 100 多 种 不 同 的 组 合 ， 而 且 如 果 要 生成 高 质 
量 代码 ， 那 么 几乎 每 种 组 合 都 需要 不 同 的 代码 序列 。 

穷 举 所 有 的 情况 不 仅 乏 味 、 容 易 出 错 而 且 不 是 空间 有 效 的 。 图 15-1 展 示 了 一 个 更 普通 的 方法 ， 它 可 
以 根据 操作 数 的 状态 建立 合适 的 代码 序列 。 这 种 方法 展示 了 指令 选择 、 寄 存 器 分 配 和 地 址 模式 是 如 何 相 
互 关联 的 ， 即 使 是 在 为 像 加 法 元 组 这 样 简单 的 元 组 生成 代码 时 也 是 如 此 。 

读 例 程 仔细 检查 操作 数 模式， 并 生成 高 质量 的 代码 。 例 如 ， 给 定 (+,T1,10,G)， 其 中 T1 是 被 指派 到 寄 
存 器 r1 的 非 活跃 临时 变量 ，G 是 采用 (base, offse) 寻 址 的 普通 变量 ， 于 是 我 们 得 到 : 


Add #10,r1 
Store offset(base),r1 
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Generate code for integer add: (+,A,B,C) 


Possible operand modes for A and B are: 
(1) Literal (stored in value field) 
(2) Indexed (stored in adr field as (Reg, Displacement) pair) 
(3) Indirect (stored in adr field as (Reg,Displacement) pair) 
(4) Live register (stored in Reg field) 
(5) Dead register (stored in Reg field) 


Possible operand modes for C are: 
(1) indexed (stored in adr field as (Reg, Displacement) pair) 
(2) Indirect (stored in adr field as (Reg,Displacement) pair) 
(3) Live register (stored in Reg field) 
(4) Unassigned register (stored in Reg field, when assigned) 


(a) Swap operands (knowing addition is commutative) 


if (B.mode == DEAD REGISTER || A.mode == LITERAL) 
Swap A and B; /* This may save a load or store 
since addition overwrites the 
first operand. */ 


(b) “Target” the result of the addition directly into C (if possible). 


switch (C.mode) { 
case LIVE_REGISTER: Target = C.reg; break; 


case UNASSIGNED_REGISTER: 
if (A.mode == DEAD REGISTER) 
C.reg = A.reg; /* Compute into A's reg, 
then assign it to C. */ 
else 
Assign a register to C.reg: 
C.mode = LIVE REGISTER; 
Target - C.reg: 
break; 


case INDIRECT: 
case .INDEXED: 
if (A.mode == DEAD REGISTER) 
Target = A.reg; 
else 
Target = v2; 
/* vi is the i-th volatile register. */ 
break; 
} 


(c) Map operand B to right operand of add instruction (the "Source") 


if (B.mode == INDIRECT) ( 
/* Use indexing to simulate indirection. */ 
generate (LOAD,B.adr,vl,""); 
/* vl is a volatile register. */ 
B.mode = INDEXED; 
B.adr = (address) { .reg = vl; 
.displacement = 0; }; 
) 


Source = B; 


(d) Now generate the add instruction 


if (A.mode == LITERAL && B.mode == LITERAL) 
/* "Fold" the addition. */ 
generate (LOAD, #(A.val+B.val) , Target,""); 


else { 

address t; 

/* Load operand A (if necessary). */ 

switch (A.mode) { 

case LITERAL: generate (LOAD, #A. val, Target,""); 
break: 

case INDEXED: generate (LOAD,A.adr,Target,”"): 
break: 
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case LIVE REGISTER: 
generate (LOAD,AÀ.reg,Target,""); 
break; 

case INDIRECT: generate (LOAD,A.adr,v2,""); 
t.reg = v2; t.displacement = 0; 
generate (LOAD,t,Target,""):; 
break; 

case DEAD REGISTER: 
if (Target != A.reg) 

generate (LOAD,A.reg,Target,""); 

break; 


) 
generate (ADD, Source, Target, ""); 
) 


(e) Store result into C (if necessary) 


if (C.mode = INDEXED) 
generate (STORE, C. adr, Target, ""); 

else if (C.mode == INDIRECT) { 
generate (LOAD, C.adr,v3,""); 
t.reg = v3; t.displacement = 0; 
generate (STORE,t, Target, ""); 

} 





图 15-1 (8%) 


尽管 我 们 的 代码 生成 器 在 检查 每 种 情况 时 相当 彻底 ， 但 仍然 还 可 以 包含 更 多 的 情况 。 例 如 ， 对 A 或 
B 是 (或 二 者 都 是 ) 文字 常量 0 的 情况 ， 就 没有 加 以 特殊 处 理 ; 同样 的 情况 还 有 在 一 个 元 组 中 同一 个 操作 
数 的 出 现 不 止 一 次 。 这 些 扩展 可 以 在 花费 更 多 、 更 仔细 的 情况 分 析 的 代价 后 获得 。 为 防止 出 现 令 人 不 入 
快 的 事情 ， 较 为 明智 的 做 法 是 使 元 组 生成 器 尝试 各 种 情况 以 检查 所 生成 的 代码 的 正确 性 和 最 优 性 。 

将 代码 生成 组 织 成 许多 元 组 生成 器 的 最 大 好 处 是 代码 生成 模块 化 。 很 容易 分 离 负责 任意 元 组 的 例 程 ， 
因此 调试 或 者 代码 的 改进 将 是 直截了当 的 ， 尽 管 它们 通常 是 宛 长 乏味 的 。 但 是 这 种 方法 的 一 个 显著 缺 所 
是 代码 生成 决策 和 机 器 特征 的 描述 将 混杂 在 一 起 。 例 如 ， 减 法 的 元 组 生成 器 应 该 和 加 法 所 使 用 的 元 组 生 
成 器 类 似 ， 但 实际 上 却 不 相同 ， 因 为 减法 是 不 可 交换 的 。 因 此 ， 将 机 器 特征 从 代码 生成 的 细节 中 请 晰 地 
分 离 出 去 是 一 件 值得 做 的 事情 。 

另外 一 个 问题 是 , 若 采 用 基于 逐个 元 组 的 代码 生成 方式 ， 那么 在 元 组 之 间 无 法 保存 任何 状态 。 因 此 ， 
表达 式 也 许 会 被 不 必要 地 重新 计算 ， 会 出 现 宛 余 的 寄存 器 装 入 和 存储 ， 且 寻 址 模式 也 没有 被 充分 利用 。 
接 下 来 ， 我 们 将 研究 在 代码 生成 时 信息 追踪 的 方法 。 我 们 称 这 种 方法 是 解释 性 的 (interpretive )， 因 为 
我 们 将 “解释 ”元 组 ， 即 有 时 会 生成 代码 而 有 时 仅 记 住 将 会 生成 什么 样 的 代码 ， 我 们 这 样 做 就 是 希望 找 
到 更 有 效 的 方法 来 产生 想 要 的 计算 。 


15.4 解释 性 代码 生成 


”解释 性 代码 生成 器 把 即将 扩展 为 真正 目标 代码 的 IR 看 作 某 个 虚拟 机 的 代码 。 如 果 巨 是 标准 形式 的 ， 
那么 有 可 能 通过 使 用 P 个 前 端 和 M 个 代码 生成 器 在 M 个 目标 机 器 上 创建 P 个 程序 设计 语言 的 编译 器 。 这 种 
方法 由 UNCOL (Universal Compiler-oriented Language) 引入 ， 它 曾 被 提议 作为 一 种 通用 的 IR 形 式 
(Steel 1961)。UNCOL 或 许 有 些 超前 ， 它 被 证 明 是 不 成 功 的 。 最 近 以 来 ， ?一 代码 和 U 一 代码 《Perkins 
and Sites 1979) 已 被 建议 作为 适合 解释 性 代码 生成 的 下 形 却 。 | 

这 种 代码 生成 就 像 典 型 的 宏 处 理 ， 尽 管 在 解释 器 中 也 存在 着 用 某 些 “状态 ”来 产生 较 高 质量 的 代码 。 
U- 代 码 因 其 支持 解释 性 代码 生成 模型 而 比 〈 通 常 是 宏 展 开 形式 的 ) P- 代 码 的 表示 有 显著 的 改进 。 

当 U- 代 码 解释 器 读 U- 代 码 指令 时 ， 它 更 新 它 的 状态 ， 就 像 普 通 的 CPU 那样 ， 而 代码 的 生成 则 以 副 
作用 的 形式 体现 。 为 了 再 目标 U- 代 码 编译 器 到 新 的 机 器 ， 我 们 要 重新 定义 与 U- 代 码 解 释 器 内 部 状态 的 





改变 相关 联 的 目标 代码 序列 。 有 目标 代 码 不 是 与 U- 代 码 指令 而 是 与 U- 代 码 解释 器 内 部 状态 相关 联 ， 这 意 
味 着 可 以 实现 目标 代码 质量 上 的 显著 改进 。 

我 们 所 生成 的 代码 必须 在 任何 执行 路 径 上 都 是 正确 的 ， 因 此 我 们 将 代码 生成 器 的 分 析 工作 限制 为 穿 
越 元 组 的 简单 的 直线 流 路 径 。 也 就 是 说 ， 我 们 将 注意 力 限制 在 基本 块 (basic block) 中 ， 而 基本 块 是 元 
组 的 线性 序列 ， 除 了 在 基本 块 的 最 后 ， 其 他 地 方 不 含有 控制 流 的 分 支 。 一 个 基本 块 从 其 顶部 开始 ， 依 次 
执行 其 中 所 有 的 指令 ， 然 后 以 条 件 或 无 条 件 分 支 指令 结束 。 在 基本 块 中 间 不 允许 有 分 支 指 令 。 每 个 程序 
可 以 被 表示 为 一 系列 由 分 支 指令 连接 在 一 起 基本 块 。 

在 基本 块 内 的 优化 称 为 局 部 优化 (local optimization), 因为 这 些 优化 是 由 基本 块 的 局 部 特征 决定 的 ， 
它 不 受 其 他 基本 块 或 控制 流 的 考虑 的 影响 。 在 基本 块 内 ， 我 们 寻找 、 识 别 和 消除 宛 余 的 计算 以 及 进行 地 
址 计算 的 优化 。 元 余 的 计算 涉及 到 一 个 已 计算 的 表达 式 的 重复 计算 ， 或 涉及 到 寄存 器 的 使 用 以 便 保持 某 
个 活跃 值 并 减少 装 入 和 存储 操作 。 


15.4.1 优化 地 址 计算 


地 址 计算 在 生成 的 代码 中 很 常见 ， 如 果 处 理 不 当 ， 它 们 的 计算 将 会 是 效率 低下 的 。 因 此 ， 有 必要 识 
别 那 些 建立 地 址 的 计算 并 把 它们 映射 为 日 标 机 器 所 提供 的 特殊 的 寻 址 模式 和 指令 。 基 本 的 想法 是 预先 考 
虑 常见 的 硬件 寻 址 模式 ， 除 非 在 绝对 需要 时 才 生 成 建立 地 址 的 代码 。 例 如 ， 我 们 知道 通常 存在 变 址 寻 址 
模式 (寄存 器 加 偏 移 )， 因 此 可 以 将 地 址 表示 为 一 个 (变量 加 常量 ) 对 。 

我 们 也 可 以 事先 考虑 其 他 的 寻 址 模式 ， 例 如 间接 (或 延迟 ) 寻 址 ， 并 且 可 以 通过 将 一 种 寻 址 模式 转 
换 为 另外 一 种 寻 址 模式 来 推迟 地 址 代码 的 生成 。 通 常 ， 我 们 可 以 通过 简单 地 将 直接 地 址 变换 为 间接 地 址 
来 翻译 包含 指针 或 引用 型 参数 的 表达 式 。 例 如 ， 针 对 Pascal 语 句 A := Pf + 1， 我 们 也 许 会 生成 : 

(Fetch Indirect,P,T) 

(Add,T,1,A) 

在 预见 了 间接 寻 址 模式 之 后 ， 可 以 通过 推迟 T 的 显 式 计算 并 将 它 表 示 为 地 址 模式 (Pindirect) 的 方式 
来 改进 上 述 元 组 。( 如 果 间 接 寻 址 模式 不 可 用 ， 那 么 可 以 模拟 这 个 间接 访问 ， 这 已 在 15.3 节 的 示例 中 出 
Sud.) 

就 像 我 们 在 第 11 章 中 见 过 的 ， 数 组 引用 被 非常 仔细 地 翻译 以 便 消除 不 必要 的 计算 。 因 此 ， 对 A() 的 
引用 会 仅 要求 将 | 加 到 A 的 常量 部 分 (BD: A 的 起 始 地 址 与 数组 下 界 的 差 值 的 指令 。 然 而 A(- 1) 通 常 比 
A() 生 成 更 多 的 代码 。 这 显然 不 是 最 优 的 ， 因 为 “ 减 1” 可 以 被 合并 到 A 的 常量 部 分 。 这 个 问题 在 于 翻译 
下 标 表 达 式 的 例 程 可 能 不 知道 它 是 地 址 计算 的 一 部 分 而 把 它 作为 普通 的 计算 来 处 理 。 因 此 ， 有 必要 为 处 
理 表 达 式 的 语义 例 程 提供 上 下 文 信息 ， 以 表明 正在 计算 的 是 地 址 还 是 普通 的 值 。 地 址 可 以 用 我 们 熟悉 的 
(variable, constant) 对 来 表示 ， 因 为 我 们 知道 最 终 硬件 寻 址 模式 将 提供 一 个 “免费 ”的 地 址 对 加 法 操作 。 
因而 ， 在 翻译 AI-1) 时 ， 我 们 将 |- 1 表示 为 ((，-1) 对 ， 而 A 表 示 为 (base_reg，constant_part) 对 。 这 种 表 
示 将 所 需 代 码 变 为 : | 加 到 基 址 寄存 器 上 ， 其 中 1 可 能 还 要 乘 上 数组 元 素 的 大 小 。 也 就 是 说 ， 为 计算 A(I- 
1) 的 地 址 ， 我 们 可 以 生成 : 


Load Iregi u | 
Mult — «element size,reg! — —— Omit if element size = 1 
Add base reg.regí -~ Usually a Display register 


All-1) 的 地 址 是 (reg1, constant part- 1 x element size). 

诸如 IBM 360/370 系 列 的 机 器 通过 提供 “将 常量 偏 移 与 两 个 寄存 器 之 和 相 加 而 形成 地 址 ”的 寻 址 模 
式 来 介 许 对 数组 引用 做 进一步 的 优化 ， 这 两 个 寄存 器 一 个 是 基 址 (base) 寄存 器 ， 另 一 个 则 是 描述 下 标 
的 索引 (index) 寄存 器 。 利 用 这 样 的 寻 址 模式 ， 地 址 必须 被 表示 为 三 元 组 形式 : (Base, Index, Offset), 
而 三 部 分 的 相 加 则 要 推迟 到 地 址 形成 为 止 。( 这 种 双 寄存 器 模式 不 会 在 所 有 指令 中 可 用 ， 因 此 有 时 还 是 
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需要 显 式 地 形成 一 个 普通 的 (Base, Offset.) 

VAX 体 系 结构 提供 了 更 为 详细 的 称 为 位 移 变 址 (indexed displacement) 的 寻 址 模式 ， 该 模式 中 包含 
了 被 访问 对 象 的 类 型 (byte、word 或 long )。 地 址 依然 被 表示 为 三 元 组 形式 : (Base, Index, Offset), {Hix 
里 索引 (Index) 要 自动 乘 上 对 象 的 大 小 (如 1、2 或 4)， 然后 再 与 基 址 (Base) 和 偏 移 (Offset) 成 员 相 加 。 现 在 ， 
如 果 代 码 生 成 器 延迟 那些 不 成 熟 的 地 址 计算 ， 那 么 两 个 加 法 和 一 个 乘法 就 可 以 隐藏 在 地 址 计算 中 。 事 实 
上 ， 这 里 出 现 一 个 一 般 的 计算 模式 。 硬 件 寻 址 模式 通常 很 不 一 致 旦 经 常 很 琐碎 ， 因 此 ， 延 迟 或 缓存 所 有 
的 地 址 计算 将 是 很 有 用 的 。 当 最 后 必须 访问 一 个 对 象 时 ， 将 调用 一 个 经 过 特殊 设计 的 “地 址 专家 ”来 控 
掘 可 用 的 寻 址 模式 。 该 “专家 ”决定 什么 样 的 寻 址 模式 是 可 行 的 以 及 如 何以 最 佳 方式 建立 一 个 到 所 需 对 
象 的 访问 路 径 。 在 获悉 许多 特殊 情况 可 被 充分 利用 的 前 提 下 ， 该 专家 卖力 地 工作 以 求 优化 数据 访问 。 

在 某 些 机 器 (如 MC 68000) 上 地 址 和 操作 数 寄存 器 是 不 同 的 。 对 于 这 样 的 机 器 ， 地 址 计算 的 结果 
必须 以 地 址 寄存 器 为 目标 。 也 就 是 说 ， 尽 管 地址 计算 可 以 利用 操作 数 寄存 器 ， 但 地 址 计算 的 最 后 一 步 应 
当 将 其 结果 放 到 地 址 寄存 器 中 以 便 可 以 立即 使 用 该 地 址 。 

指令 的 选择 因 指 令 提供 的 寻 址 模式 不 一 致 而 变 得 复杂 。 例 如 ， 许 多 机 器 要 求 指令 中 至 少 有 一 个 操作 
数 是 寄存 器 。 如 果 操 作 数 当前 均 不 在 寄存 器 中 ， 那 么 可 能 需要 装 和 操作。 在 生成 指令 前 ， 可 以 计算 把 操 
作 数 与 可 用 寻 址 模式 相 匹配 的 代价 。 如 果 操 作 是 像 加 法 那样 可 以 交换 的 ， 那 么 一 个 谨慎 的 代码 生成 普 将 
会 郑 虑 两 个 操作 数 的 顺序 ， 此 时 通常 要 寻找 可 以 导致 更 好 代码 生成 的 那 一 种 上 顺序。 

VAX 机 器 上 的 指令 选择 也 因为 存在 两 -操作 数 和 三 -操作 数 的 指令 格式 而 显得 复杂 。 包 含 三 -操作 数 
的 指令 常常 通过 消除 额外 的 装 和 信和 存储 操作 而 改进 代码 的 质量 。 但 不 幸 的 是 ， 并 非 所 有 的 指令 都 提供 
两 -操作 数 或 三 -操作 数 格式 ， 这 也 带 来 了 选择 上 的 困难 。 例 如 ， 乘 上 2 的 咕 次 方 常常 通过 移 位 指令 米 实 
现 。 乘 法 操作 可 以 出 现在 两 -操作 数 或 三 -操作 数 指令 格式 中 ， 而 算术 移 位 仅 有 三 -操作 数 的 指令 格式 。 
因此 ， 就 有 必要 在 小 而 慢 的 乘法 指令 与 大 而 快 的 移 位 指令 之 间 做 出 选择 。 

硬件 体系 结构 有 时 包含 自动 递增 和 自动 递减 寻 址 模式 , 即 在 寻 址 操作 数 时 允许 索引 向 上 或 向 下 步 进 。 
通常 ， 在 生成 的 代码 中 很 难 利用 自动 递增 和 自动 递 碱 ， 除 非 它们 在 源 语言 中 被 直接 表示 出 来 (如 它们 在 
C 语 言 中 那样 )。 一 个 问题 是 ， 它们 的 操作 不 对 称 一 一 自动 递增 在 使 用 索引 之 后 增加 其 值 ， 而 自动 递减 在 
使 用 索引 之 前 减少 其 值 。 正 常情 况 下 ， 源 代码 以 递增 顺序 遍历 数组 ， 这 就 意味 着 在 用 索引 访问 数组 元 素 
的 元 组 之 后 才能 出 现 增加 索引 的 元 组 。 为 此 ， 有 必要 在 基本 块 中 做 前 向 搜索 ， 寻 找 那个 可 以 作为 是 动 递 
增 而 预先 计算 的 加 法 操作 。 另 一 个 问题 是 : 自动 递增 和 自动 递减 常常 按照 2 或 4 个 单元 来 执行 (递增 或 递 
减 )， 这 反映 出 字 长 是 2 或 4 个 字 节 的 事实 。 除非 我 们 使 用 一 种 借助 重复 的 加 法 替代 乘法 的 称 为 强度 剂 强 
(strength reduction) 的 优化 (参见 第 16 章 )， 否 则 ， 那 个 索引 每 次 递增 1、 然后 再 乘 上 字 的 大 小 2 或 4 的 事 
实 将 可 能 完全 掩盖 使 用 自动 递增 的 可 能 性 。 

自动 递增 和 自动 递减 在 访问 栈 时 很 有 用 ; 通常 我 们 增加 栈 顶 并 随后 存放 值 ， 或 者 从 栈 项 拷贝 值 并 随 
后 递减 栈 顶 。 为 使 栈 顶 操作 通过 自动 递增 和 自动 递减 来 执行 ， 有 必要 按照 后 向 生长 方式 来 组 织 栈 。 也 就 
是 说 ， 栈 必须 开始 于 高 端 地 址 而 向 低 端 地 址 生长 。 这 就 允许 使 用 自动 递减 来 实现 人 栈 操 作 ， 用 自动 递增 
来 实现 出 栈 操 作 。 

有 关 寻 址 模式 的 最 后 一 个 问题 涉及 连接 基本 块 的 分 支 指令 。 硬 件 体 系 结构 (如 PDP-11 和 VAX) 均 
提供 长 (long) m (short) 格式 分 支 。 短 格式 分 支 在 一 个 字 节 或 字 中 存储 一 个 带 符号 的 相对 偏 移 
(relative offset) ， 但 长 格式 分 支 建立 绝对 地 址 〈 非 相对 地 址 )。 自 然 地 ， 短 格式 分 支 由 于 需要 的 空间 少 而 
受 欢迎 。 有 人 研究 了 长 、 短 格式 分 支 的 最 佳 选择 问题 (Szymanski 1978), 发 现 这 是 一 个 非常 难于 选择 
的 问题 。 其 问题 在 于 为 一 个 分 支 选择 长 格式 或 短 格式 可 能 影响 到 其 他 分 支 的 范围 。 为 获得 最 优 代 码 ， 也 
许 需 要 对 所 生成 的 代码 做 不 定 次 数 的 穿越 〈 以 设置 长 或 短 格 式 的 分 支 )。 

通常 ， 我 们 采用 能 提供 近似 最 优 分 支 格式 的 启发 式 方法 。 假定 基本 块 没有 被 代码 生成 器 重新 排序 
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(尽管 它们 可 以 被 某 个 单独 的 优化 阶段 重 排 )。 我 们 首先 为 基本 块 生成 代码 ， 其 中 的 分 支 指令 格式 尚未 决 
定 。 这 就 允许 我 们 预 滴 分 支 指 令 到 它 的 目标 的 距离 ， 这 里 假设 所 有 分 支 均 为 长 格式 的 。 然 后 ， 我 们 用 这 

个 预测 做 出 选择 长 格式 还 是 短 格式 的 最 初 决定 ， 并 更 新 分 支 指令 与 它们 目标 之 间 的 范围 。 此 外 ， 我 们 还 

可 以 利用 已 更 新 的 信息 ， 重 新 处 理 任何 能 够 转换 为 短 格式 的 长 分 支 。( 这 种 处 理 的 过 程 可 以 重复 多 次 ， 

但 通常 情况 下 至 多 需要 一 遍 修 正 即 可 。) 


15.4.2 避免 元 余 计算 


在 基本 块 中 ， 通常 有 可 能 去 判定 某 个 特定 的 计算 是 否 元 余 。 不 需要 重新 计算 的 值 称 为 公共 子 表达 式 
(Common Sub Expression, CSE). 

为 识别 基本 块 中 的 CSE， 我 们 必须 能 判定 某 个 特定 的 表达 式 是 否 已 被 计算 过 ， 如 果 已 被 计算 ， 那 么 
要 判断 它 的 值 是 否 已 被 注销 。 一 个 值 被 认为 是 注销 的 ， 如 果 重 新 计算 它 会 产生 一 个 不 同 的 值 。 给 表达 式 
中 的 操作 数 赋值 就 注销 了 先前 已 计算 的 该 表达 式 的 值 。 

只 要 代码 生成 器 被 要 求 去 计算 表达 式 ， 我 们 就 在 相同 的 基本 块 中 寻找 该 表达 式 是 否 有 先前 计算 过 且 
仍然 活跃 的 值 。 如 果 找 到 了 一 个 ， 我 们 就 抑制 有 关 代 码 的 生成 ， 取 而 代 之 的 是 复 用 那个 已 计算 过 的 值 。 

我 们 仍 假定 使 用 元 组 作为 琢 。 正 常情 况 下 ， 在 元 组 一 级 计算 表达 式 的 时 候 ， 将 指派 给 该 表达 式 一 个 
新 的 、 惟 一 的 临时 变量 。 现 在 ， 我 们 要 求 所 选择 的 临时 变量 名 字 惟 一 对 应 某 个 特定 的 运算 符 - 操 作 数 组 
合 。 即 ， 给 定 元 组 (OP1，A1，B1，T1) 和 元 组 (OP2，A2，B2，T2) ， 如 果 (OP1=OP2) 且 (A1=A2) 以 及 
(B1=B2)， 那 么 T1=T2。 

该 约定 使 发 现 可 能 的 CSE 变 得 容易 ， 因 为 它们 拥有 相同 的 结果 临时 变量 。 该 约定 也 确保 了 所 有 的 已 
发 现 的 CSE 将 共享 同一 个 临时 变量 。 在 生成 元 组 时 可 用 简单 的 哈 希 方法 确定 合适 的 结果 临时 变量 。 

元 余 计算 是 指 那些 计算 ， 即 一 个 临时 变量 T 的 值 在 它 被 重新 计算 的 前 后 必须 是 相同 的 。 如 何 能 决定 
其 个 临时 变量 T 属 于 这 种 情况 呢 ? 我 们 的 方法 是 基于 值 编号 (value numbering) 的 想法 ， 它 是 由 Cocke 和 
Schwartz (1970) 首先 提出 的 。 首 先 考 虑 涉及 数组 元 素 、 引 用 参数 、 指 针 等 的 别名 被 忽略 的 情形 。( 由 
别名 带 来 的 复杂 性 在 本 节 稍 后 讨论 。) 

对 基本 块 中 每 个 不 同 的 程序 变量 和 临时 变量 ， 用 一 个 整 型 值 1ast_def 指 向 基本 块 中 给 那个 变量 或 
临时 变量 赋值 的 最 新 的 元 组 。 开 始 时 ，last_def 的 值 设 为 0。 如 果 T 含 有 一 个 地 址 ， 那 么 我 们 将 维护 两 
个 值 ， 其 中 一 个 是 地 址 ;而 另 一 个 则 是 由 该 地 址 所 引用 的 对 象 。 通 常 ， 在 改变 存放 于 临时 变量 中 的 地 址 
的 同时 也 改变 了 通过 该 地 址 所 引用 的 值 。 559 

我 们 假定 ， 在 处 理 基 本 块 时 ， 所 有 生成 的 元 组 和 所 有 优化 的 CSE 都 是 正确 的 。 因 此 一 一 在 忽略 别名 
时 一 一 如 果 条 件 


last def[A] < last def[T] && last def[B] « last def[T] 


成 立 ， 那 么 元 组 (OP, A, B, T) 的 计算 必定 元 余 ， 因 为 从 最 后 一 次 计算 T 以 来 ， A 和 B 均 未 改变 。 这 种 情况 
T, (OP, A, B, T) 是 CSE 且 可 以 被 删除 ， 而 T 中 值 仍然 正确 。 当 然 ， 如 果 A 或 B 自 从 最 后 一 次 计算 T 以 来 已 
另外 赋值 ， 那 么 T 的 计算 就 不 再 元 余 。 

在 识别 出 CSE 的 值 之 后 ， 我 们 必须 确定 : 在 基本 块 里 ， 只 有 在 这 些 值 的 最 后 一 次 使 用 之 后 ， 保 存 它 
们 的 临时 变量 才能 被 标记 为 “ 非 活跃 的 "”。 这 种 预防 保证 了 所 需要 的 值 将 被 保存 起 来 ， 通 常 这 些 值 是 被 
保存 在 寄存 器 临时 变量 中 。 

考虑 下 面 的 示例 ， 其 中 T+ 表 示 通 过 存放 在 T 中 的 地 址 间接 引用 的 值 。 我 们 将 删除 为 图 15-2 中 的 语句 
所 生成 的 元 组 中 的 CSE。 

图 15-3 中 给 出 了 为 图 15-2 中 的 语句 所 生成 的 元 组 。 后 级 R 表 示 一 个 可 以 被 聘 除 的 宛 余 的 元 组 ， 注意 : 
从 表 中 可 以 看 到 ，last_def 的 值 在 某 些 元 组 中 被 改变 。 符 号 Tis 表 示 Ti 中 保存 的 地 址 ， i, 则 表示 通过 Ti 中 
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保存 的 地 址 所 引用 的 值 。 由 二 标记 的 条 目 表 示 如 果 考 虑 了 涉及 数组 A 的 别名 ， 那 么 有 关 的 值 可 能 要 改变 。 


A(LJ)  :=A(l,J)+B +C; 
A(i,J+1) := A(l,J) + B + D; 


A(lJ)  := A(l,J) + B; 





图 15-2 简单 的 基本 块 


别名 

在 为 基本 块 生成 元 组 时 ， 以 上 描述 的 处 理 很 容易 做 到 。 然 而 ， 我 们 必须 记 住 :别名 是 个 大 问题 。 首 
先 ， 我 们 考虑 数组 元 素 的 别名 。 给 一 个 带 下 标的 变量 赋值 也 许 意味 着 对 另 一 个 下 标 变量 的 改变 ， 如 末 一 
者 均 引 用 相同 的 数组 成 员 【( 例 如， 如 果 |=J 的 话 ，A(l) 是 A(J) 的 别名 )。 

如 何 处 理 这 种 情况 呢 ? 简 单 的 方法 是 保持 一 张 能 寻 址 给 定数 组 元 素 的 所 有 临时 变量 的 表 (例如 ， 在 
本 例 中 针对 数组 A 中 元 素 的 T1、T2 和 T6)。 现 在 ， 通 过 这 些 临时 变量 中 的 任何 一 个 对 数组 元 素 的 赋值 都 
会 改变 表 中 所 有 这 样 的 临时 变量 的 last_def 的 值 。 因 此 ， 在 前 面 这 个 例子 中 ,通过 T1、T2 或 T6 对 数组 
元 素 的 赋值 将 更 新 三 者 相应 的 last_def 值 ， 如 在 图 15-3 中 用 后 级 + 所 示 。 因 此 ， 在 使 用 了 这 个 更 加 细致 
的 算法 后 ， 第 20 号 元 组 不 再 是 计算 元 余 的 。 这 种 改变 是 由 于 通过 T6 (在 第 15 号 元 组 中 ) BAJAR 
值 注 销 了 通过 T2A(1,J) 引 用 的 值 。 当 然 ， 即 使 在 最 严格 的 意义 下 ， 也 并 不 是 真 的 需要 这 个 动作 ， 因 为 
A(1,J) 和 A(,J+1) 根 本 不 会 引用 同一 个 单元 位 置 。 然 而 ， 认 识 这 个 相当 “深奥 ”的 规则 (对 任何 值 的 J，J 
+J+1) 所 需 的 额外 的 复杂 性 已 远 超出 了 这 里 使 用 的 分 析 的 能 力 。 | 
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图 15-3 为 图 15-2 中 语句 所 生成 的 元 组 和 值 编号 


在 我 们 给 一 个 形 参 或 由 指针 引用 的 对 象 赋值 的 时 候 也 会 引起 别名 问题 。 我 们 必须 以 某 种 方式 注销 所 
有 潜在 的 可 能 无 效 的 CSE。 我 们 所 做 的 最 为 准确 的 事情 仅仅 是 注销 那些 与 形 参 或 可 能 绑 定 到 形 参 的 变量 
有 关 的 CSE。 类 似 地 ， 对 于 指针 ， 我 们 可 以 只 注销 那些 与 所 关注 的 指针 或 可 能 引用 同一 对 象 的 其 他 指针 
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有 关 的 CSE。 处 理 别 名 时 要 谦 慎 ， 以 确保 能 考虑 到 所 有 到 被 关注 对 象 的 路 径 。 

在 16.2.3 节 中 我 们 将 讨论 如 何 确定 可 与 形 参 构成 别名 的 变量 集合 。 与 之 类似 的 技术 可 以 用 来 确定 访 

问 相 同 堆 对 象 的 指针 集合 。 在 一 遍 编 译 器 中 ， 肉 确 判 定 所 有 潜在 的 别名 是 不 现实 的 。 为 简单 起 见 ， 所 有 
包含 具有 合适 类 型 的 变量 或 堆 对 象 指 针 的 CSE 均 被 注销 。 尽 管 这 样 做 我 们 会 丧失 某 些 优化 的 机 会 ， 但 这 
比 刚 才 介 绍 的 分 析 要 简单 得 多 并 确实 保证 了 CSE 优 化 是 安全 的 。 

过 程 和 函数 调用 可 以 出 现在 基本 块 中 县 被 视 为 是 一 个 复合 操作 ， 就 像 它 们 的 过 程 《〈 或 函数 ) 体 已 在 
调用 点 展开 一 样 。 当 然 ， 我 们 要 考虑 调用 的 副作用 。 正 常情 况 下 ， 我 们 只 是 简单 地 假设 所 有 的 CSE 均 被 
注销 。 在 优化 编译 絮 中 ， 我 们 可 以 做 过 程 间 (interprocedural) 分 析 以 便 查看 哪些 变量 可 能 被 修改 并 注 
销 相 应 的 CSE。 我 们 将 在 16.2.3 市 里 详细 讨论 这 种 分 析 技 术 。 


15.4.8 寄存 器 追踪 


到 目前 为 止 ， 我 们 所 描述 的 代码 生成 器 尚未 有 效 地 利用 寄存 器 。 特 别 是 有 关 寄 存 器 内 容 的 信息 也 少 
有 维护 。 结 果 是 ，“ 值 ”被 不 必要 地 装 入 寄存 器 或 存储 到 内 存 中 。 进 一 步 地 ， 我 们 还 假设 寄存 器 分 配 程 
序 简单 地 将 寄存 器 绑 定 到 临时 变量 直到 临时 变量 被 释放 。 当 寄 存 器 不 得 不 溢出 时 《 即 当 寄存 器 的 需求 超 
出 所 提供 的 寄存 器 数 时 )， 这 种 方法 就 显得 过 于 简单 了 。 

我 们 将 使 用 一 个 简单 的 能 追踪 基本 块 中 可 分 配 寄 存 器 内 容 的 局 部 寄存 名 分 配方 案 ， 来 改进 15.3 节 中 
那个 简单 的 代码 生成 器 。 这 种 方案 允许 我 们 将 寄存 器 分 配给 那些 经 常 访问 的 变量 或 临时 变量 ， 它 是 一 种 
可 以 有 效 地 减少 所 需 寄存 器 装 入 和 存 入 数目 的 方法 。 它 还 设法 将 存储 器 到 寄存 器 方式 的 指令 赫 换 为 更 小 
更 快 的 寄存 器 到 寄存 器 方式 的 指令 ， 从 而 实现 代码 大 小 和 速度 上 的 改进 。 

这 种 方案 的 设计 简单 易 用 。 但 它 不 是 最 优 的 ， 已 知 有 许多 代价 高 且 可 以 为 基本 块 产生 最 优 方案 的 算 
ik (Horwitz et al.，1966)。 而 在 上 一 节 里 ， 我 们 最 初 忽略 了 别名 和 子 程序 调用 所 带 来 的 影响 。 

我 们 从 赋值 操作 以 及 那些 可 交换 或 不 可 交换 的 二 元 运算 符 的 元 组 中 生成 代码 。 我 们 使 用 的 “机 器 ” 
BB! (bare-bones 1， 裸 机 1 号 ) n> 2 个 可 用 于 分 配 的 寄存 器 。 它 包括 以 下 各 类 机 器 指令 : 


(a) Load Storage,Reg -—-Cost=2 | 

(b) Store Storage,Reg -- Cost = 2 

(c) OP Storage.Reg —- Reg := Reg OP Storage; Cost = 2 
(d) OP Reg1,Reg2 -- Reg2 := Reg2 OP Regi; Cost = 1 


格式 (a) 到 (c) 的 指令 均 为 存储 器 到 寄存 器 方式 的 指令 且 每 个 需要 耗费 2 个 单位 生成 时 间 。 格 式 (d) 则 
表示 寄存 器 到 寄存 器 指令 ， 需 要 1 个 单位 生成 时 间 。 存 储 器 地 址 可 以 是 直接 地 址 或 索引 地 址 (寄存 器 加 
RF). 

对 每 一 个 操作 数 寄存 器 ， 我 们 维持 该 寄存 器 所 包含 的 变量 或 临时 变量 的 列表 ， 并 称 之 为 寄存 器 关联 
A. (register association list)。 与 某 个 寄存 器 关联 的 每 一 个 变量 或 临时 变量 都 有 两 个 状态 标识 

(DL (活跃 ) 或 D ( 非 活跃 )。 

(2)S ( 待 保存 ) 或 NS (不 必 保存 )。 _ 

Ap Rs I ERLE, IA EMI RM, CITEER SU. 也 就 是 
说 ， 将 活跃 变量 或 临时 变量 的 值 保存 在 寄存 器 中 是 值得 的 )。 变 量 应 当 总 是 在 基本 块 的 最 后 被 保存 ， 如 
果 它 们 还 没有 被 保存 到 内 存 中 ( 即 ， 如 果 变 量 有 S 标 志 ， 那 么 它 将 被 保存 )。 临 时 变量 在 “ 非 活跃 ”后 通 
常 不 需要 保存 。 

活跃 状态 通常 可 以 通过 对 基本 块 进行 后 向 扫描 来 决定 。( 也 就 是 说 ， 我 们 必须 缓存 基本 块 ， 做 后 向 
扫描 ， 然 后 再 做 前 向 的 分 析 以 分 配 寄存 器 并 生成 代码 。) 进一步 地 ， 如 果 变量 或 临时 变量 的 下 次 引用 是 
对 其 进行 新 的 赋值 ， 那 么 它 的 状态 就 是 (D,NS) ， 因 为 在 重新 定义 前 它 将 不 会 被 使 用 ， 因 而 在 计算 新 值 前 
也 就 没有 必要 把 旧 值 保存 到 内 存 中 。 对 每 一 个 寄存 器 ， 我 们 考虑 释放 它 的 代价 ( 即 ， 寄 存 器 “失去 ”其 
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当前 内 容 的 代价 )。 该 代价 被 定义 为 释放 与 寄存 器 关联 的 所 有 变量 或 临时 变量 的 单个 代价 的 总 和 。 而 从 
给 定 的 寄存 器 释放 关联 的 单个 变量 或 临时 变量 的 代价 被 定义 如 下 : 、 
0 如 果 它 的 状态 是 (D,NS) 或 (D,S) 
(在 状态 为 (D,S) 时 ， 变 量 或 临时 变量 均 不 再 被 使 用 ， 而 且 它 们 必须 要 被 保存 ， 因 此 ， 这 里 释放 
寄存 器 并 立即 进行 保存 没有 什么 损失 或 代价 。) 
2 如 果 它 的 状态 是 (L,NS) 
(需要 装 入 指令 将 变量 或 临时 变量 恢复 到 寄存 器 中 。) 
4 如 果 它 的 状态 是 (L,S) 
(需要 存储 指令 来 保存 值 ， 然 后 需要 装 入 指令 将 值 恢 复 到 寄存 器 中 。 ) 
寄存 器 如 果 不 包 含 (变量 或 临时 变量 ) 关联 ， 则 其 分 配 代价 为 零 。 我 们 调用 图 15-4 中 定义 的 例 程 
get_regf() 来 分 配 寄存 器 ， 该 例 程 分 配 “ 最 便宜 ”的 可 用 寄存 器 。 它 的 返回 类 型 machine _ reg 只 是 0 和 
机 器 的 最 大 寄存 器 数 减 1 之 间 的 一 个 小 整数 ， 


machine reg get_reg (void) 

{ 
/* 
* Any register already allocated to the current tuple 
* is NOT AVAILABLE for allocation during this call. 
*/ 


if (there exists some register R with cost (R) == 0) 
Choose R 
else ( 
C x 2; 
while (TRUE) | 
if (there exists at least one register 
with cost == C) { 


Choose that register, R, with cost C that 
has the mos! distant next reference to an 
associated variable or temporary 

break; 

} 
C += 2; 


} 


Save the value of R for any associated variables or 
temporaries with a status = (L,S) or (D,S) 
} 


return R; 





图 15-4 基于 代价 的 寄存 器 分 配 程 序 


get_reg( ) 选 择 尽 可 能 “便宜 ”的 寄存 器 ， 当 存在 多 个 有 相间 的 非 零 代价 的 寄存 器 时 ， 它 将 选择 其 
相关 变量 或 临时 变量 的 下 次 引用 最 远 的 那个 寄存 器 。 其 理由 是 ， 寄 存 器 中 的 值 离 它 的 下 次 引用 越 近 ， 越 
应 该 被 保存 在 寄存 器 中 。 反 之 ， 寄 存 器 中 的 值 离 下 次 引用 越 远 ， 则 释放 该 寄存 器 不 会 造成 什么 直接 后 果 
563| (而 将 值 继续 保留 在 该 寄存 器 中 则 收效 甚 微 )。 下 次 引用 信息 可 以 在 用 于 确定 活跃 或 非 医 跃 状 才 的 相同 的 
后 向 分 析 中 确定 六 | 
ixi get reg cost() 确定 获得 一 个 寄存 器 所 需 的 最 小 代价 ( 即 ， 释 放 由 get_reg() 所 选 寄存 器 
的 代价 )。 一 旦 get_reg( ) 分 配 了 寄存 器 ， 我 们 就 生成 代码 装 和 人 所 需 的 变量 或 临时 变量 。 接 着 清除 该 寄存 
器 的 原 有 关联 ， 并 根据 处 理 当 前 元 组 之 后 变量 或 临时 变量 的 活跃 情况 ， 将 寄存 器 的 当前 状态 设 为 (L,NS) 
或 (D,NS)。 
我 们 使 用 在 图 15-5 和 图 15-6 中 定义 的 代码 生成 例 程 。 
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Assignment (:=,X,Y): 


if (X is not already in a register) 
Call get reg() and generate a load of X 


if (Y, after this tuple, has a status of (D,S) ) 
generate (STORE, Y, Reg, "") 
else 
Append Y to Reg's association list with a status 
of (L,S) 
/* The generation of the STORE instruction 
has been postponed */ 


(OP,U, V, W) where OP is noncommutative: 


if (U is not in some register, R1) 
Call get reg() and generate code to load U 
else /* Rl's current value will be destroyed */ 
Generate any necessary saves of Rl's value 
as indicated by the S/NS flag on Rl's 
association list 


if (V is in a register, R2) 
/* including the possibility that U == V */ 
generate (OP, R2,R1,"") 
else if (get reg cost() > 0 | V is dead after this tuple) 
generate (OP, V,R1, "") 
else { 
/* 
* Invest 1 unit of cost so that V is 
* in a register for later use 
*/ 
R2 = get_reg() 
generate (Load, V,R2,"") 
generate (OP, R2,R1,"") 
} 


Update Ri's association list to include W only. 





图 15-5 赋值 语句 与 不 可 交换 的 二 元 运算 符 的 代码 生成 器 


(OP,U,V,W) where OP is commutative: 


if (cost ((OP,U,V,W)) <= cost ((OP, V, U,W))) 
generate (OP, U,V, W); | 


/* using noncommutative code generator */ 


else 
generate (OP, V,U, W}; 
/* using noncommutative code generator */ 





图 15-6 可 交换 的 二 元 运算 符 的 代码 生成 器 
如 果 使 用 图 15-5 的 算法 ， 我 们 可 以 计算 为 (OP,U,V,W) 所 生成 的 代码 的 代价 。 它 是 ， 


cost = {U is in a register ? 0 
: get reg cost() + 2) /* Cost to load U into R1 */ 


* cost (R1) /* Cost of losing U */ 
+ (V is in a register | U == V 
?1:2) /* Cost of register-to-register */ 


/* vs. storage-to-register */ 


如 图 15-6 所 示 ， 我 们 用 这 个 代价 评估 来 决定 在 可 交换 的 二 元 运算 符 中 使 用 的 计算 次 序 。 
作为 示例 ， 考 虑 图 15-7 中 的 基本 块 。 相 应 的 元 组 在 图 15-8 中 。 





图 15-7 一 个 简单 的 基本 块 
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(*,B,C,T1) (8 (+,E£,A,T6) 
(*,D,E, T2) (*, T6,C, T7) 
(^, T1,T2,T3) Cz, T7,F) 
(:=,T3,A) 

(+,D,E, 78) 
(-,D,B,T4) (:=,T8,A) 
(+,C,T4,T5) 
(:=,T5,D) 





图 15-8 与 图 15-7 基 本 块 相对 应 的 元 组 


假设 有 4 个 寄存 屡 且 使 用 一 个 不 监控 寄存 器 内 容 的 简单 代码 生成 器 。 我 们 为 图 1$-8 中 元 组 生成 的 代 
码 如 图 15-9 所 示 。 
(Load 
N 
(Store 


(+ ; 
(Store , (Load 


(+ 
(Load ， (Store 


(Load 
(+ 
(Store 





图 15-9 AR 48 GR CASAL p 


这 个 代码 序列 用 了 6 次 装 入 、4 次 存储 、6 次 存储 器 到 寄存 器 操作 和 2 次 寄存 器 到 寄存 器 操作 。 该 序列 
的 全 部 代价 为 34。 | 

使 用 寄存 器 追踪 的 代码 生成 在 图 15-10 中 给 出 。( 符 号 < 标记 为 可 交换 操作 所 选择 的 操作 数 序列 。) 
寄存 器 追踪 方法 生成 5 次 装 入 、3 次 存储 、1 次 存储 器 到 寄存 器 操作 和 7 次 寄存 器 到 寄存 器 操作 。 所 生成 序 
列 的 全 部 代价 为 25 而 不 是 34 一 一 这 是 一 个 显著 的 改进 。 
别名 和 子 程序 调用 的 影响 

在 追踪 基本 块 中 寄存 器 的 内 容 时 ， 必 须要 考虑 别名 和 子 程序 调用 的 影响 。 

我 们 首先 考虑 别名 的 影响 。 设 N 为 数据 对 象 的 别名 。 它 可 以 是 一 个 引用 形 参 、 指 针 或 带 有 非常 量 下 
标的 变 址 变量 (数组 元 素 )。 我 们 可 用 16.2.3 节 中 的 技术 非常 仔细 地 计算 出 与 N 别 名 的 数据 对 象 集合 OQ。 
O 也 可 能 简单 地 /就 是 所 有 的 变量 、 堆 对 象 或 与 N 相 对 应 的 数组 元 素 的 集合 (例如 ， 所 有 具备 正确 类 型 的 
变量 或 给 定数 组 中 的 所 有 元 素 )。 

无 论 何 时 ， 只 要 引用 N 的 值 ， 我 们 就 必须 检查 寄存 器 关联 表 。 如 果 任 意 数 据 对 象 o € O 在 寄存 器 关 
联 表 中 出 现 且 状 态 为 $3， 那么 相应 寄存 器 必须 要 被 保存 到 对 象 0 中 。 如 果 N 实 际 与 0 别名 ， 那么 此 过 程 确 
保 N 将 引用 正确 的 值 。 

类 似 地 ， 当 对 N 进 行 赋值 时 ， 我 们 也 必须 检查 寄存 器 关联 表 。 如 果 对 象 o c O 在 寄存 器 关联 表 中 ， 
那么 应 当 从 关联 表 中 删除 该 对 象 。 它 反映 出 这 样 的 事实 : 即 对 N 的 赋值 可 能 已 改变 o 的 值 ， 从 而 使 当前 
保存 在 与 0 关联 的 寄存 器 中 的 值 无 效 。 

就 如 第 13 章 所 讨论 的 ， 通 常 可 在 子 程序 调用 前 后 ， 由 调用 者 或 被 调 者 保存 和 恢复 可 分 配 的 寄存 器 。 
(在 16.2.2 节 中 ， 我 们 将 讨论 避免 不 必要 的 寄存 器 保存 的 方法 ) 

如 果 调 用 者 做 保存 与 恢复 的 工作 ， 将 有 益 于 在 调用 前 清除 所 有 的 寄存 器 关联 。 也 就 是 说 ， 状 态 为 S 
的 寄存 器 将 被 保存 ， 而 其 他 所 有 寄存 器 将 被 释放 。 在 返回 时 ， 那 些 所 需要 的 寄存 器 的 值 可 被 逐一 重新 装 
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入 。 最 坏 情 况 是 ， 我 们 保存 某 个 寄存 器 并 稍 后 再 次 装 人 它 。 尽 管 如 此 ， 我 们 仍然 可 以 做 得 更 好 些 ， 因 为 
状态 为 NS 的 寄存 器 不 需要 保存 ， 而 且 寄 存 器 也 只 有 在 实际 需要 的 时 候 才 会 被 重新 装 和 人 。 


Tuple/Code generated 
po 


(+,B,C,T1) 
Cost(*,B,C,T1) = 2+2+2 = 
Cost(*,C,B,T1) = 24242 






一 os I 一 eco --—- 
































(Load B,R1) 
(Load C,R2) 
* R2,R1 
(*,D.E,T2) 
Cost(*,D.E, T2) = 24242 <= 
Cost(*, E,D, T2) = 24242 


B(L,NS) 
B(L,NS) 
T1(L,S) 







C(L.NS) 
C(L.NS 

































(Load D,R3) T1(L,S) |C(LNS) 
(Load E,R4) T!(LS) | C(L,NS) ElL NS) 
* R4 R3 T1(L,S) | C(L.NS) 


(^, T1,T2,T3) 
Cost( 4, T1, T2, T3) = 04041 < 
Cost(«,T2, T1, T3) = 04041 









(+ R3,R1) 
—- (D,NS) associations 


T3(L,S) | C(LINS) | T2(D,NS) | E(L.NS) 
-— can be immediately removed 


(:=,T3,A) A(L.S) C(L,NS) || E(L,NS) 
—-— The store is deferred 


(-,D,B,T4) 
A(LS) |C(LNS) | D(D,NS) | E(L,NS) 
ALS) |C(LNS) | T4(LS) | E(LNS) 

+ R2,R3) 


—— Store is deferred 


(+,E,A,T6) 
Cost(+,E,A,T6) = 0+2+1 


Cost(+,A,E,T6) = 0+0+1 = 
T7(D, meer D(L, w^ E(L, em 


—— A is dead after this 
D(L,NS) 
T — S) 


图 15-10 带 有 寄存 器 追踪 的 代码 生成 













(Load D,R3) 

(- B,R3) 

-—— B is not live after this tu 

(4, C,T4,T5) 
Cost(*,C, T4,T5) = 04+2+1 
Cost(*, T4,C,T5) = 0+0+1 = 





























(+ R4,R1) 
(4, T6,C,T7) 
Cost(+,T6,C,T7) = 0+0+1 <= 
Cost(«, C, T6, T7) = 04041 









(+ R2,H1) 
=,T7,F) 
(Store F,R1) 

—— Do store since F is not 
—— live in this block 
(+,D,E,18) 
Cost(+,D,E,T8) = 04041 = 
Cost(+,E,D,T8) = 0+0+1 
















(Store D,R3) E(L,NS) 
—— Store is unavoidable 

(+ R4,R3) 

(:=,18,A) 
(Store A,R3) 

—- Store is unavoidable 


E(D,NS) 
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如 果 由 被 调 者 来 保存 和 恢复 寄存 器 ， 那 么 在 子 程序 被 调用 的 时 候 ， 我 们 将 检查 Def 和 Use 这 两 个 集 
合 。Def 和 Use 分 别 反映 子 程序 调用 期 间 所 定义 《所 更 新 的 ) 和 使 用 (所 读 的 ) 的 变量 集合 。 它 们 可 以 
用 16.2.3 节 中 的 技术 来 计算 ,或 简单 地 设 为 该 子 程序 能 访问 的 所 有 变量 的 集合 。 在 调用 前 ， 我 们 保存 所 
有 出 现在 寄存 器 关联 表 中 状态 为 S 的 对 象 O € Use。 类 似 地 ， 我 们 将 从 寄存 器 关联 表 中 删除 所 有 对 象 0 € 
Def。 也 就 是 说 ,我 们 保存 那些 在 调用 过 程 中 将 被 引用 的 值 而 去 除 调用 期 间 可 能 会 被 赋值 语句 修改 的 变 
BRK. 3 
在 最 简单 的 情况 下 ， 我 们 假设 在 调用 过 程 中 所 有 变量 可 读 可 写 ， 那 么 这 种 方法 就 意味 着 在 调用 前 保 
存 所 有 状态 为 S 的 寄存 器 并 在 调用 后 完全 清除 所 有 的 关联 表 。 幸 运 的 是 ， 如 果 调 用 的 是 非 局 部 的 子 程序 ， 
那么 局 部 变量 显然 不 受 调用 的 影响 。 因 此 ， 我 们 可 以 确信 库 子 程序 (输入 /输出 、 存 储 管理 、 数 学 国 数 
等 ) 不 会 影响 到 程序 变量 ， 除 非 使 用 显 式 的 引用 参数 。 
其 他 有 关 寄存 器 追踪 的 问题 
前 面 提 及 的 寄存 器 追踪 方法 代表 着 一 类 局 部 寄存 器 分 配 例 程 。 此 外 还 有 许多 可 能 的 变形 和 扩展 : 
。 有 算法 建议 溢出 下 次 引用 在 最 远 处 的 寄存 器 (Kim 1978)。 同 样 ， 还 有 算法 已 研究 了 对 寄存 器 的 
下 两 次 引用 (Hsu 1987)。 这 种 方法 比 只 考虑 下 次 引用 会 产生 更 好 的 代码 。 
可 以 使 用 着 色 算 法 (coloring algorithm) (Chaitin 1982) 来 执行 寄存 器 分 配 。 首 先 建立 相干 图 
(conflict graph), ， 把 图 中 结 点 赋予 即将 指派 到 寄存 器 的 变量 或 临时 变量 。 如 果 两 个 结 点 所 代表 的 
对 象 (变量 或 临时 变量 ) 必须 共存 ， 则 在 它们 之 间 有 一 条 边 。 即 ， 相 连接 的 结 点 不 能 分 配 到 相同 
的 寄存 器 。 寄 存 器 分 配 变 为 图 结 点 的 着 色 问 题 : 每 种 颜色 代表 一 个 寄存 器 ， 相 连接 的 结 点 颜色 不 
同 。 如 果 相 干 图 所 需 闫 色 数 比 寄存 器 总 数 要 多 ， 就 必须 溢出 寄存 器 。 已 有 各 种 启发 式 方法 通过 将 
相干 图 拆 分 成 子 图 来 做 “着 色 ” 工 作 。 
。 对 各 种 不 同 的 操作 ， 根 据 其 指令 大 小 或 执行 时 间 使 用 不 同 的 代价 摘 述 。 
。 可 以 包含 额外 的 地 址 模式 ( 直接、 间接、 变 址 + 大 址 、 等 等 )。 
。 人 允许 不 同 寄 存 器 分 类 和 分 配 相 邻 寄存 器 对 。 
。 人 允许 使 用 寄存 器 到 寄存 器 传送 来 保护 寄存 器 内 容 。 例 如 ， 针 对 (C-A)+(C+B)， 我 们 可 能 产生 : 


(Load C,R1) 
(- A,R1) 
(Load C,R2) 
(+ B, R2) 
(+ R2,R1) 


其 代价 仅 为 8。 

,人 允许 包含 状态 为 (L,NS) 的 变量 或 临时 变量 的 寄存 器 的 释放 代价 仅 为 1， 条 件 是 它 的 值 可 由 一 个 存 
储 器 到 寄存 器 指令 从 存储 器 中 引用 到 ( 即 ， 可 以 避免 重新 装 入 其 值 )。 类 似 地 ， 对 于 状态 为 (L,S) 
的 变量 ， 如 果 我 们 保存 它 ， 并 稍 后 用 一 个 存储 器 到 寄存 器 指令 引用 其 值 ， 那么 可 能 需要 的 释放 代 
价 仅 为 3 (而 不 是 4)。 

.如果 进行 宽 孔 优化 (peephole optimization) (使 用 逻辑 上 相 邻 指令 ; £315.58). 那么 可 以 将 指 
令 对 (Load V,Rj), (OP Rj,Ri) 赫 换 为 (OP V,RI), 其 条 件 是 在 后 续 指 令 中 不 从 Ri 中 引用 V 的 值 。 这 
种 指令 的 合并 一 般 发 生 在 以 下 情况 下 : BUA ie it Fe AR]. 但 稍 后 在 遇 到 V 的 引用 前 又 
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强行 释放 Rj 男 作 他 用 。 
上 述 讨论 中 的 最 重要 一 点 是 ， 我 们 可 以 建立 基于 代价 的 寄存 器 分 配 的 形式 化 模型 ， 即 使 该 模型 的 使 

用 范围 及 细节 相当 简单 ， 它 也 能 产生 显著 的 代码 改进 。 如 果 有 可 用 的 寄存 器 ， 它 将 “付费 使 用 ”它们 。 

在 全 局 范围 内 我 们 如 何 进 行 寄 存 器 分 配 呢 ? 通常 我 们 会 假定 在 基本 块 之 间 没 有 需要 保留 的 寄存 器 值 
我 们 做 的 是 局 部 寄存 器 优化 )。 然 而 ， 我 们 可 以 在 基本 块 间 提供 有 限制 的 寄存 器 使 用 : 

。 特 殊 的 操作 数 〈 如 循环 索引 或 过 程 参 变量 ) 可 在 循环 或 过 程 中 被 分 配 到 固定 的 寄存 器 中 。 

。 可 以 向 前 传输 寄存 器 状态 信息 到 其 前 驱 惟 一 的 基本 块 。 前 驱 惟 一 的 基本 块 经 常 出 现在 让 和 case 语 
句 中 ， 其 中 每 个 条 件 分 支 均 有 惟一 的 前 驱 。 然 而 ， 在 穿越 基本 块 边界 时 延迟 寄存 器 的 保存 并 非 好 
主意 ， 因 为 我 们 可 能 在 每 个 后 继 基本 块 而 非 单个 的 前 驱 基本 块 中 做 保存 (这 浪费 了 些 空 间 ， 但 时 
间 不 受 影 啊 )。 

优化 编译 器 也 许 会 施行 完全 的 全 局 寄存 器 分 配 。 但 此 类 优化 要 做 得 很 好 却 非常 困难 ， 因 为 : 

。 我 们 必须 允许 在 所 有 基本 块 中 用 相同 寄存 器 保存 某 个 给 定数 据 对 象 或 做 额外 的 传送 。 

。 在 可 能 以 数 千 计 的 变量 和 临时 变量 中 ， 必 须 决 定 在 小 得 多 的 寄存 器 集合 中 保存 其 中 的 一 部 分 。 这 
种 决策 涉及 到 控制 流 分 析 ， 而 评估 给 定 变量 和 临时 变量 引用 频率 的 机 制 却 使 之 复杂 起 来 。 其 答案 
也 往往 带 有 整数 程序 设计 问题 的 味道 (Johnsson 1975). 


15.5 MILA 


为 产生 高 质量 代码 ， 有 必要 了 解 众多 的 特殊 情况 。 例 如 ， 很 明显 我 们 希望 避免 生成 操作 数 与 零 相 加 
的 代码 。 但 我 们 在 哪里 检查 这 个 特殊 情况 呢 ? 在 每 一 个 可 能 生成 加 法 元 组 的 例 程 里 ? 或 在 每 一 个 可 能 生 
成 加 法 操作 的 代码 生成 例 程 里 ? 

与 其 将 特殊 情况 的 知识 散布 在 语义 例 程 或 代码 生成 例 程 中 ， 还 不 如 借助 明显 的 容 孔 优化 (peephoile 
optimization) 阶段 以 寻找 那些 特殊 的 情况 并 将 它们 赫 换 为 改进 后 的 代码 。 我 们 可 以 在 元 组 (Tanenbaum 
et al., 1982) 或 已 生成 的 代码 (McKeeman 1965) 上 进行 宇 孔 优化 。 如 同 “ 宕 孔 ”一 词 所 瞳 示 的 ， 我 们 
将 检查 包含 2 ~ 3 条 指令 或 元 组 的 小 窗口 。 如 果 在 罕 孔 中 的 指令 匹配 特定 的 模式 ， 它 们 将 被 蔡 换 序列 
(replacement sequence) 所 取代 。 替 换 后 ， 新 的 指令 将 被 重新 考虑 以 便 进行 进一步 的 优化 。 

-- 般 地 ， 我 们 将 定义 罕 孔 优化 器 的 众多 特殊 情况 表示 为 “模式 -替换 ”对 的 列表 。 因 此 ，pattern 
-replacement 就 意味 着 如 果 发 现 一 个 代码 或 元 组 序列 匹配 模式 ， 那 么 它 将 被 替换 序列 所 代替 。 如 采 没 
有 任何 模式 可 以 匹配 ,那么 该 代码 序列 将 保持 不 变 。 很 明显 ， 可 以 考虑 的 特殊 情况 的 数量 几乎 是 无 限 的 ， 
而 我 们 这 里 仅仅 列 出 了 几 类 最 常用 的 替换 规则 。 通 常 ， 在 元 组 一 级 表示 能 施用 于 任何 机 器 体系 结构 的 规 
则 ; 而 利用 特定 指令 或 寻 址 模式 的 规则 则 一 般 在 机 器 -代码 一 级 来 表示 。 

。 常量 折 又 (提前 计算 常量 表达 式 )。 

(+,Lit1,Lit2,Result) = (=,Litl+Lit2,Resuit) 


(:=,Lit1,Result1), (+,Lit2,Result1 Result2) = (:=,Lit1,Resultt), 
(:=,Lit1 +Lit2, Result2) 


(Bp, 


— 


. 强度 削弱 (将 较 慢 的 操作 替换 为 较 快 的 等 价 操作 )。 


(+,Operand,2,Result) = (ShiftLeft, Operand, 1 ,Resutt) 
(«,Operand,4,Result) = (ShiftLeft,Operand,2,Result) 


。 空 序列 (删除 无 用 操作 )。 


(+,Operand,0,Result) = (:=,Operand,Result) 
(+,Operand,1,Result) = (:=,Operand,Result) 


。 合 并 操作 (将 若干 操作 替换 为 一 个 等 价 的 操作 )。 
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Load A,R,; Load A+1,Ri,, = DoubleLoad A,R; 
BranchZero L1,R1; Branch L2; L1: = BranchNotZero L2,R1 
Subtract #1,R1: BranchZero L1,R1 — SubtractOneBranch L1,R1 


。 代 数 规则 《利用 代数 规则 来 简化 或 重 排 指 令 ) 。 
(+,Lit, Operand,Result) > (+,Operand, Lit, Result) 
(-,0,Operand, Result) = (Negate,Operand,Result) 

。 特殊 情形 指令 (利用 为 特殊 操作 设计 的 指令 )。 


Subtract #1,R1 => Decrement R1 
Add #1,R1 = Increment R1 
Load #0,R1; StoreA,R1 = Clear A 


。 地址 模式 操作 (利用 地 址 模式 来 简化 代码 )。 
Load A,R1; Add 0(R1),R2 = Add @A,R2 
—— (QA 表示 间接 寻 址 
Subtract #2,R1; Clear 0(R1) = Clear (R1) 
一 一 “(Ri)" 表示 自动 递减 
为 减少 替换 规则 的 数量 ,可 以 使 用 能 匹配 任何 操作 符 和 操作 数 的 模式 变量 (pattern variable )。 例 如 ， 
如 果 模 式 变量 被 冠 以 % 前 级 ， 那 么 我 们 可 以 指定 单一 的 模式 来 识别 可 能 的 间接 寻 址 的 应 用 : 


Load %IndirAdr,%VolatileReg; %OpCode 0(%VolatieReg),%ResuitReg = 
%OpCode @%indirAdr,%ResultReg 


为 使 模式 匹配 更 快 地 进行 ， 我 们 将 操作 符 -操作 数组 合 种 类 散 列 〈 映 射 ) BT SK. TRI. BEAL 
窗口 的 大 小 通常 也 限制 在 2 ~ 3 条 指令 。 经 过 精心 的 哈 希 实现 ， 可 取得 每 秒 钟 儿 千 条 指令 的 处 理 速度 
(Davidson and Fraser 1984 ) 。 | 

这 种 分 析 思 想 已 从 实际 相 邻 的 指令 推广 到 逻辑 相 邻 的 指令 (Davidson and Fraser 1982). 如 果 两 条 指 
令 通 过 控制 流 相连 接 或 它们 不 受 插入 它们 之 间 的 指令 的 影响 ， 则 称 这 两 条 指令 还 辑 上 相 邻 〈logically 
adjacent)。 通 过 分 析 逻 辑 上 相 邻 的 指令 ， 有 可 能 删除 跳 转 链 (到 转移 指令 的 跳 转 ) 和 元 余 计 算 《〈 例 如 ， 不 
必要 地 设置 条 件 码 )。 寻 找 逻 辑 上 相 邻 的 指令 比较 耗 时 ， 因 此 需要 谨慎 处 理 以 保持 帘 和 孔 优 化 的 快速 执行 。 


15.6 从 树 结构 生成 代码 


我 们 已 集中 讨论 了 从 带 元 组 生成 代码 。 在 处 理 表 达 式 的 时 候 ， 所 翻译 的 元 组 是 表达 式 树 形 结构 的 线 
形 表示 。 可 以 用 不 同 的 顺序 遍历 并 翻译 表达 式 树 ; 通常 ， 使 用 深度 优先 、 从 堪 自 右 的 方法 产生 元 组 。 浴 
度 优先 、 从 左 自 右 的 方法 总 能 产生 正确 的 翻译 ; 然而， 其 他 的 遍历 方式 或 许可 以 生成 更 好 的 代码 。 考 虐 
(A-B) + ((C+D)+(E*F))。 通 常 的 深度 优先 遍历 首先 翻译 (A-B)， 将 其 值 保留 在 寄存 器 中 。 然 后 再 翻译 
(C+D)+(E*F)， 这 需要 两 个 寄存 器 (每 个 子 表达 式 一 个 )。 因 此 ， 总 共 使 用 了 三 个 寄存 器 。 然 而 ， 如 采 
右边 的 表达 式 ((C+D)+(E*F)) 被 首先 计算 ， 那 么 仅 需 要 两 个 寄存 器 ， 因 为 这 个 子 表达 式 一 旦 被 计算 ， 其 
值 将 保存 在 一 个 寄存 器 中 ， 而 另外 一 个 可 用 于 计算 A+B。 

树 中 结 点 有 如 下 结构 : 


typedef struct expr tr ( 
struct expr tr *left subtree; 
struct expr tr *right subtree; 
int reg count; 
boolean is right; 
enum ( ID, BINARY OPERATOR, 
COMMUTATIVE OPERATOR } kind; 
) expression tree; 


现在 我 们 考虑 可 以 在 计算 任意 表达 式 或 子 表达 式 时 确定 需要 寄存 器 数 最 少 的 算法 。 我 们 暂时 忽略 公 
共 子 表达 式 和 运算 符 的 特殊 性 质 〈 如 交换 性 )。 该 算法 在 树 中 结 点 的 边 上 标记 用 于 计算 以 该 结 点 为 根 的 
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子 表达 式 所 需 最 少 的 寄存 器 数目 。 该 标记 也 称 为 Sethi-Ullman 编 号 (Sethi-Ullman 1970)。 一 旦 知晓 计算 
每 个 表达 式 或 子 表达 式 所 需 最 少 的 寄存 器 数 ， 我 们 将 以 产生 最 优 代码 的 方式 遍历 相应 的 ( 子 ) 表达 式 树 
( 即 ， 产 生 的 代码 使 用 寄存 器 最 少 ， 且 因此 寄存 器 的 溢出 也 最 少 )。 

和 前 面 几 市 一 样 ， 我 们 假设 的 机 器 模型 可 提供 寄存 器 到 存储 器 以 及 存储 器 到 寄存 器 的 操作 数 模 式 ， 
且 第 一 操作 数 和 结果 总 驻 留 在 寄存 器 中 。 

算法 以 自 底 向 上 的 方式 工作 ， 首 先 标记 树 的 叶 结 点 。 如 果 叶 结 点 是 左 操 作 数 ， 它 将 被 标记 为 1， 因 
为 它 必 须 被 装 入 到 寄存 器 中 ; 反之 ， 它 若是 右 结 点 则 标记 为 0， 因 为 它 可 以 直接 从 内 存 中 访问 。 对 于 代 
表 二 元 操作 的 内 部 结 点 ， 必 须 考虑 每 个 操作 数 的 寄存 器 需求 。 如 果 两 个 操作 数 均 需 要 r 个 寄存 器 ， 那 么 
该 运算 需要 r+1 个 寄存 器 ， 因 为 一 旦 一 个 操作 数 计算 完成 ， 其 值 将 保存 在 一 个 寄存 器 中 。 如 果 两 个 操作 
数 需要 不 同 数目 的 寄存 器 ， 那 么 整个 表达 式 所 需 寄 存 器 数 和 两 个 操作 数 中 较 复杂 的 那个 操作 数 所 需 寄存 
器 数 一 样 多 。( 首先 计算 较 复杂 的 操作 数 并 将 其 值 存放 在 一 个 寄存 器 中 。 较 简单 的 操作 数 需 要 少 一 些 的 
寄存 器 ， 因 此 可 以 复 用 先前 计算 较 复杂 操作 数 所 用 的 寄存 器 。) 这 种 分 析 算 法 如 图 15-11 所 示 。 


void register needs(expression tree *T) 
{ 
/* 
* Mark each node in T with a field "reg count". 
* Node.reg count is the minimum number of registers 
* needed to evaluate the subexpression rooted by 
* Node in T. 
*/ 
if (T->kind == ID) { 
if (is a right subtree(T)) 
T-»reg count = 0; 
else 
T-»reg count = 1; 
) eise ( /* T must be a binary operator. */ 
register needs(T-»left subtree): ` 


register_needs (T->right_subt ree) ; 
if (T->left_subtree.reg count == 
T-»right subtree.reg count) 
T-»reg count = T-»right subtree.reg count + 1; 
else 
T-»reg count = max(T->left subtree.reg count, 
T-»right subtree.reg count); 





图 15-11 为 表达 式 树 标记 所 需 寄存 器 的 算法 


作为 该 算法 的 示例 ， 图 15-12 中 给 出 了 register_needs() 对 (A-B) + ((C+D)+(E*F)) 的 表达 式 树 所 
做 的 标记 ( 插 号 里 是 每 个 算 符 结 点 所 需 的 寄存 器 数 reg_count )。 


图 15-12 已 标记 所 需 寄存 器 数 的 (A-B) + ((C+D)+(E*F)) 的 表达 式 树 
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我 们 用 reg_count 标 记 来 驱动 一 个 简单 、 但 是 最 优 的 代码 生成 器 tree_codqe( ) ， 其 定义 见 图 15-13。 
tree_code( ) 取 带 标记 的 表达 式 树 和 可 用 寄存 器 列表 为 输入 参数 。 它 生成 计算 该 树 的 代码 并 将 结果 存 于 
列表 中 的 第 一 个 寄存 器 里 。 如 果 tree_code{ ) 能 使 用 的 寄存 器 太 少 ， 它 将 在 必要 时 溢出 寄存 器 到 临时 存 
储 器 中 。 我 们 用 到 一 些 简单 的 表 操纵 函数 ?， 限 于 篇 幅 ， 这 里 并 未 将 它们 列 出 。) 














void tree_code (expression tree *T, register list reglist) 
{ 
/* 

* Generate code to evaluate T using registers in 
* reglist (at least two registers are assumed). 
*/ i 
extern register list listcat(register list,...); 
expression tree *left t, *right t; 
machine reg R1, R2: 
register list remaining regs; 
address temp; 


Ri = head(reglist): 
if (T->kind == ID) 
/* Must be a left subtree or trivial expression. */ 

generate (LOAD, T,R1,""); 
else ( /* T->kind must be a binary operator. */ 
left_t = T->left_subtree; 
right t = T-»right subtree; 
if (right t-»reg count == 0) ( /* right t is an ID. */ 
tree code(left t,reglist): 
generate (T->op, right t,R1,""); 
) else if (left_t->reg_count >= length(reglist) && 
right t-»reg count >= length(reglist)) { 
/* Must spill a regíster */ 
tree code (right t,reglist); 
get storage temp(& temp); 
generate (STORE, temp, R1,"") ; 
tree code(left t,reglist): 
generate (T->op, temp, R1,"") ; 
} else { 
/* One or both subtrees don't need all registers */ 
R2 = head (tail (reglist) ); 
if (left_t->reg_count >= right_t->reg_count) { 
tree code(left t, reglist) ; 
tree code (right _t, tail (reglist) ); 
generate (T->op, R2,R1,""); 
} else { 
remaining regs = tail (tail (reglist)): 
tree_code (right t,listcat (R2,R1, remaining re 3s) ) : 
/* Leave result in R2. */ 
tree_code (left _t,listcat (R1, remaining regs) ); 
/* Leave result in R1. */ 
generate (T-»op,R2,R1,""); 




























图 15-13 从 表达 式 树 产生 代码 的 算法 


作为 tree_code( ) 程 序 的 示例 ， 我 们 以 图 15-12 中 的 标记 树 和 寄存 器 表 (R1,R2) 调 用 该 例 程 ， 得 到 
如 下 代码 序列 : 


(1) Load C,R2 
(2) Add  OD,R2 
(3) Load  ER1 
(4) Mui F,R1 
(5 Add RI1R2 
(6) Load  ARt 
(7) Sub BRi 
(8) Add  Re2,R1 





”如 图 15-13 所 示 代 码 中 的 tail()、1listcat() 等 。 一 一 译 者 注 
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tree_code( ) 很 好 地 诠释 了 以 寄存 器 为 目标 (register targeting) 的 原则 。 也 就 是 说 ， 所 生成 的 代码 中 ， 
最 终 值 将 出 现在 且 标 寄存 器 中 ， 没 有 不 必要 的 传送 。 

如 有 果 能 利用 运算 的 可 交换 性 ， 还 可 以 改进 由 例 程 tree_code( ) 生 成 的 代码 的 质量 。 考 虑 运算 可 交 
换 的 情况 ， 设 子 树 为 T1 和 T2。 如 果 T1 和 T2 均 为 标识 符 ， 则 交换 操作 数 显然 对 代码 没有 改进 。 类 似 地 ， 
如 果 T1 和 T2 都 是 非 平 几 的 表达 式 ， 则 交换 操作 数 也 不 会 有 改进 ， 因 为 较 复杂 的 表达 式 子 树 总 是 先 被 计 
算 且 两 个 子 树 均 将 结果 存放 在 寄存 器 中 。 然 而 ， 当 左 子 树 T1 是 标识 符 、 右 子 树 T2 为 非 平凡 表达 式 的 时 
候 ， 交 换 操 作 数 就 是 有 益 的 。 这 是 因为 在 原来 的 计算 方式 里 ， 这 个 左 操作 数 必 须要 被 装 和 到 寄存 器 中 ， 
而 交换 后 ， 它 可 以 从 内 存 中 访问 到 。 

基于 这 种 分 析 ， 我 们 可 以 定义 如 图 15-14 所 示 的 例 程 commute(); 它 递 归 遍 历 表达 式 树 并 在 发 现 有 
利于 代码 改进 的 时 候 交 换 相 应 的 操作 数 。 在 例 程 commute( ) 执行 后 ， 可 以 跟 先 前 那样 使 用 


register needs () 和 tree code(). 


void commute (expression tree *T) 


/* Commute subtrees in T, where advantageous. */ 


if (T->kind m= BINARY OPERATOR) { 
commute (T->left_subtree) ; 


commute (T->right_ subtree) ; 
if (T-»left subtree.kind == ID 
&& T-»right subtree.kind == BINARY OPERATOR 
&& commutative (T->op) ) 
swap(T->left_subtree, T->right_subtree) ; 





图 15-14 可 交换 运算 符 的 代码 生成 算法 


15.7 从 dag 生 成 代码 


在 15.6 节 里 ， 我 们 集中 讨论 了 为 简单 表达 式 产生 最 优 代码 的 问题 。 而 在 这 节 里 ， 我 们 考虑 为 整个 基 
本 块 产生 代码 这 一 更 具 挑 战 性 的 问题 。 为 此 ， 我 们 需要 处 理 公共 子 表达 式 和 赋值 语句 。 我 们 也 因此 将 表 
达 式 树 推广 到 计算 dag (computation dag )。dag 是 有 向 无 环 图 一 一 即 ， 一 种 推广 的 树 结 构 ， 其 中 的 结 点 
可 以 有 多 个 父 结 点 。 而 允许 有 多 个 父 结 点 则 使 得 表达 式 能 够 使 用 多 次 。 环 是 不 允许 的 ， 因 为 它们 可 能 在 
计算 表达 式 时 导致 无 限 循 环 。 没 有 父 结 点 的 结 点 称 为 根 结 点 ; 一 般 来 讲 ，dag 可 以 有 多 个 根 结 点 。 

图 15-15 中 显示 了 与 (A+B)+(A+B) 对 应 的 dag。 它 说 明了 dag 是 如 何 表示 共享 的 公共 子 表达 式 的 。 为 
表示 赋值 语 旬 ， 可 以 允许 算 符 结 点 被 标 以 变量 名 。 这 种 标记 方法 表示 以 算 符 结 点 为 根 的 表达 式 的 值 已 赋 
给 那个 变量 。 例 如 ， 我 们 在 图 15-16 中 所 表示 的 语句 1:=I+1 的 dag; 注意 ， 其 中 的 i 出现 不 止 一 次 。( 每 棵 
树 均 是 一 个 平凡 的 dag。) 如 果 用 粗 黑 字 体 对 变量 的 当前 值 突出 表示 ， 则 图 15-16 中 的 dag 就 变 成 了 图 15-17 
中 的 样子 。 
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在 整个 基本 块 的 dag 中 ， 一 个 变量 可 以 出 现 多 次 。 其 初 值 总 表示 为 叶 结 点 ， 而 它 的 那个 必须 被 保存 
的 最 终 值 则 用 粗 黑 体 表 示 。 如 果 变 量 未 被 赋值 ， 那 么 它 只 出 现 一 次 (作为 叶 结 点 ) 且 因 为 其 值 不 需 保存 
而 没有 被 突出 表示 。set_label(node， label) 将 label (以 突出 表示 的 形式 ) 指派 给 结 点 node Jf 
删除 dag 中 label 的 其 他 突出 表示 。 

.现在 我 们 给 出 以 组 成 基本 块 的 赋值 语句 列表 为 输入 、 产 生 基 本 块 计算 dag 的 算法 。 假 设 每 个 赋值 语 

句 的 形式 为 ID := Expr， 其 中 Expr 是 代表 语句 右 部 的 子 树 。 

首先 ， 我 们 定义 图 15-18 中 的 函数 1ook_up() ， 它 以 一 个 树 结 点 〈 可 以 是 字面 值 或 变量 ) ASR, 
返回 相应 的 dag 结 点 。 利 用 look_up() ， 我 们 可 以 确定 (或 创建 ) 与 变量 和 字面 值 对 应 的 dag 结 点 。 如 采 
某 变量 已 被 多 次 赋值 ， 那 么 1ook_up() 将 返回 和 突出 显示 最 近 一 次 赋值 的 值 。 


dag_node *look_up (tree_node *T) 
{ 
if (T is a literal) { 
if (a dag node labeled with T exists) 
Return a pointer to the node 
else 
Create a new dag node, label it with T 
and return a pointer to it 
} else { /* T is a variable */ 
if (no dag node labeled with T exists) 
Create a new dag node, label it with T 
and return a pointer to it 
else if (a highlighted node labeled with T exists) 
Return a pointer to the node 
else 
Return a pointer to the nonhighlighted 
node labeled with T 





图 15-18 将 树 结 点 映射 为 dag 结 点 的 算法 


在 图 15-19 中 定义 的 tree_to_dag() ， 以 树 为 参数 并 将 其 合并 到 已 有 的 dag 结 构 中 。 在 做 的 过 程 中 ， 
该 函数 提供 公共 子 表达 式 的 共享 和 赋值 的 效果 。 一 个 与 树 的 值 对 应 的 dag 结 点 指针 将 被 返回 。 


dag node *tree to dag(tree node *N) 


i 
dag node *RHS, *l opnd, *r opnd, *p; 


if (N is a leaf) /* must be a literal or variable */ 
return look up(N): 
else if (N is a ":-" operator) ( 
RHS = tree to dag(r sub tree(N)); 
set label(RHS, l sub tree(N)); 
return RHS; 
) else ( 
/* N is a binary operator 
(the unary case is analogous). */ 
1 opnd = tree to dag(l sub tree(N)); 
r opnd = tree to dag(r sub tree(N)):; 
if (there exists a dag node, P, that is the 
same operator as N and has 1 opnd and 
r opnd as left and right descendants) 
return P; 
else ( 
Create a new dag node, P, that is an 
N-type operator and has l opnd and 
r opnd as left and right descendants 
return P; 





图 15-19 将 树 合并 到 dag 结 构 中 的 算法 
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作为 示例 ， 考 虑 图 15-20 所 示 的 基本 块 。 对 应 的 表达 式 树 见 图 15-21。 用 tree_to_dag() 依 次 合并 
图 15-21 中 的 每 棵 树 便 得 到 图 15-22 中 的 三 个 计算 dag。 580 





图 15-21 图 15-20 中 基本 块 的 表达 式 树 


+(G) +(G) +G) +(A) 


A A AN 


A 8 ÁN B Á 会 
图 15-22 图 15-20 中 基本 块 的 计算 dag 


有 突显 标记 的 操作 符 必 须 在 基本 块 结尾 保存 它们 的 值 。 可 被 共享 的 值 ( 像 At+B) 在 dag 中 有 不 止 一 
个 父 结 点 使 用 其 值 。 
显然 ， 从 dag 生 成 代码 比 从 树 产生 代码 要 复杂 得 多 。 一 个 明显 的 问题 是 : 如 果 一 个 值 要 被 共享 ， 那 
么 其 值 就 必须 被 一 直 保 存在 寄存 器 中 直到 所 有 使 用 该 值 的 代码 均 被 生成 为 止 。 因 此 ， 如 何 减少 寄存 器 的 
使 用 就 成 了 问题 。 令 人 惊讶 的 是 ， 问 题 还 不 仅仅 如 此 。 事 实 上 ，Aho、Johnson 和 Ulliman (1977) 已 证 明 ， 
即使 寄存 器 的 数目 无 限 多 ， 最 优 代码 的 产生 仍然 十 分 复杂 (目前 已 知 的 最 好 的 算法 花费 dag 大 小 的 指数 
阶 时 间 )。 这 个 问题 在 于 ， 用 作 左 操作 数 的 值 通 常会 被 “破坏 ”"。 如 果 一 个 值 要 被 共享 ， 那 么 在 它 用 作 左 
操作 数 前 ， 其 值 必 须 被 强制 找 员 。 优 化 代码 的 生成 器 也 因此 不 得 不 排序 dag 的 计算 以 减少 寄存 器 拷贝 。 
我 们 将 给 出 一 种 启发 式 算法 ， 它 一 般 可 以 产生 dag 的 有 效 翻 译 。 此 算法 不 难 理解 。 我 们 将 尽量 排序 
dag 的 计算 以 便 操 作 数 的 上 一 次 (last time) 使 用 是 作为 左 操作 数 来 使 用 。 此 过 程 显然 优 于 拷贝 操作 数 的 
(i: 先 将 该 操作 数 用 作 左 操作 数 ， 然 后 再 用 拷贝 的 值 作为 右 操 作 数 。 582 
我 们 定义 一 个 名 为 schedule( ) 的 dag 遍 历 算法 ， 它 调度 dag 中 操作 符 的 计算 顺序 。 该 例 程 以 自 顶 由 
下 的 方式 工作 ; 首先 被 调度 的 操作 符 将 是 最 后 一 个 被 计算 的 (在 一 个 操作 符 被 计算 前 ， 其 所 有 的 操作 数 
必须 要 被 全 部 计算 完成 )。 
因为 dag 可 能 有 多 个 根 结 点 ， 所 以 我 们 自 右 向 左 、 从 最 右边 的 根 结 点 开始 依次 调度 各 个 子 dag。( 结 





583 





IS 


点 是 从 左 至 右 地 被 添加 到 dag 中 ， 因 此 最 右 的 根 结 点 是 最 后 被 创建 并 加 入 dag 中 的 。) 我 们 自 右 向 左 调度 
是 因为 第 一 个 被 调度 的 子 dag 将 最 后 被 计算 ， 而 最 右 的 子 dag 往 往 对 应 于 基本 块 中 最 后 一 条 语句 。 我 们 希 
望 所 生成 的 代码 能 大 致 和 得 到 这 些 代码 的 语句 对 应 。 | 

在 子 dag 中 ， 如 果 一 个 操作 的 所 有 父 结 点 都 已 被 调度 过 ， 此 时 即 可 调度 该 操作 。 这 一 点 保证 了 所 有 
操作 数 在 使 用 前 将 被 计算 。 我 们 调度 左 操作 数 先 于 右 操作 数 ， 因 为 我 们 需要 左 操作 数 最 后 被 计算 ， 而 这 
种 调度 恰好 代表 计算 次 序 的 逆序 。 因 此 ， 我 们 有 如 图 15-23 所 示 的 算法 ， 它 从 子 dag 的 根 开始 递归 调度 。 


void schedule (dag_ node D) 
t 


if (D is an operator all of whose parents 
have been scheduled) { 
/* if D is a root, then we assume it 


is immediately schedulable. */ 
Mark D as the next node scheduled 
schedule (left operand(D)); 
schedule (right operand(D)): 





图 15-23 调度 dag 结 点 的 算法 


我 们 通过 以 算 符 结 点 被 调度 的 次 序 来 编号 这 些 算 符 结 点 ， ,4(G) +1(A) 
可 以 描述 调度 的 过 程 。 对 于 图 15-22 中 的 dag， 其 调度 后 的 结果 
如 图 15-24 所 示 。 


在 刚才 的 介绍 中 ， 根 结 点 的 调度 是 自 右 向 左 ;dag 的 计算 x5 | £2 43 
次 序 是 所 选调 度 的 逆序 。 在 代码 生成 前 ， 必 须 分 配 寄存 器 。 此 
项 工作 分 两 步 进行 。 首 先 ， 分 配 虚 拟 寄 存 器 ; 然后 再 将 它们 映 é (che PE F 
射 到 实际 的 寄存 器 。 

我 们 使 用 的 寄存 器 分 配 程序 allocator_v_regs()， 如 图 A B 


15-25 所 示 。 它 试图 将 一 个 操作 符 和 它 的 左 操作 数 映射 到 相同 图 15-24 算 符 结 点 调度 后 的 dag 
的 寄存 器 。 访 过程 允许 左 操作 数 被 使 用 (或 被 撤销 ) 而 无 需 找 
贝 其 值 。 


void allocate_v_regs (void) 
{ | 
/* Allocate virtual registers. */ 

int v reg = 1; /* Current virtual register */ 
dag node N; 

operator left op; 


while (all operator nodes have not been 
allocated a virtual register) { 

Choose N, the operator node with the lowest 
schedule number still unallocated 

while (TRUE) { 
Allocate v reg to N; 
left op * left operand(N); 
if (left op is an operator not yet allocated 

a virtual register and left op's lowest 


schedule-numbered parent is N) 
N = left op: | 
else 
break ; 





15-25 分 配 虚 拟 寄存 器 的 算法 
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allocator_v_regs( ) 试 图 反复 地 将 同样 的 虚拟 寄存 器 指派 给 一 个 操作 符 及 其 所 有 的 左 操 作 数 ， 
只 要 上 次 使 用 该 操作 数 的 是 这 个 操作 符 即 可 (也 就 是 说 ， 只 要 该 操作 符 有 最 小 的 调度 编号 ) 。 再 回 到 图 
15-24， 我 们 分 配 虚 拟 寄 存 器 后 并 得 到 如 图 15-26 所 示 的 dag ， 其 中 虚拟 寄存 器 用 V1、V2、… 表 示 。 584 
将 虚拟 寄存 器 映射 为 真实 寄存 器 很 容易 。 我 们 定义 一 个 虚拟 寄存 器 的 使 用 范围 是 指派 到 或 使 用 这 个 
虚拟 寄存 器 的 操作 符 的 调度 编号 的 范围 。 以 图 15-26 为 例 ， 其 映射 表 如 图 15-27 所 示 。 


ASA 41, V1(A) 


V3 *5 AN 入 /N ., 





¢ oN vi Register 
A 会 
图 15-26 分 配 虚 所 寄存 器 后 的 dag | 图 15-27 虚拟 寄存 器 的 使 用 范围 


两 个 虚拟 寄存 器 可 以 被 映射 到 同一 个 硬件 寄存 器 ， 当 且 仅 当 它们 的 使 用 范围 不 重合 。 因 此 ， 在 我 们 
的 示例 中 ，V1 可 被 映射 到 R1， 而 V2 和 V3 可 被 映射 到 R2。 
在 给 出 计算 次 序 和 寄存 器 指派 后 ， 代 码 生 成 也 算 基本 上 完成 了 。 余 下 的 工作 就 是 产生 代码 来 保存 屠 
些 在 翡 本 块 中 被 修改 的 变量 的 值 。 我 们 已 用 突显 的 方式 标记 出 那些 接受 新 值 的 变量 。 如 果 结 点 N 旁 突显 
地 标记 有 变量 V， 那 么 必须 把 分 配给 N 的 寄存 器 保存 到 V。 但 这 样 做 存在 一 定 的 风险 。 如 果 我 们 过 早 地 保 
存 了 那个 值 ， 那 么 我 们 就 有 可 能 在 所 有 需要 这 个 初 值 的 操作 符 尚未 被 计算 之 前 破坏 了 该 变量 的 初 值 。 例 
如 ， 对 C 值 的 更 新 在 编号 为 6 的 结 点 处 完成 ， 但 C 的 初 值 在 计算 结 点 5 时 仍然 需要 。 因 此 ， 我 们 推迟 保存 
客 存 器 中 的 值 直到 它 可 以 被 丢掉 为 止 。 如 果 一 个 值 在 结 点 N 处 计算 ， 它 将 被 一 直 保留 到 该 结 点 的 最 小 纺 
号 的 父 结 点 Pm 被 计算 为 止 。 如 果 使 用 变量 初 值 的 所 有 操作 的 调度 编号 都 比 Pmn 大 ， 那 么 仅 在 计算 Pmn 前 
保存 那个 更 新 的 值 。 否 则 ， 那 个 更 新 的 值 可 被 保存 到 另 一 个 寄存 器 或 临时 存储 器 中 ， 并 在 计算 dag 的 代 
码 的 最 后 再 被 拷贝 回 变量 中 。 
在 我 们 的 示例 中 ，C 的 新 值 在 结 点 6 处 被 计算 并 
被 存 于 寄存 器 R1 中 ， 该 值 将 被 保留 到 结 点 2 被 计算 
为 止 。 因 为 对 C 的 初 值 的 最 后 一 次 引用 在 结 点 5 处 ， 
因而 我 们 可 以 在 计算 结 点 2 之 前 将 R1 直 接 保存 到 C。 
为 该 示例 生成 的 代码 如 图 15-28 所 示 ， 其 中 用 到 
了 调度 、 寄 存 器 分 配 和 刚刚 讨论 的 变量 更 新 。 
我 们 所 用 的 启发 式 调度 算法 有 时 由 于 操作 数 之 
间 存 在 着 共享 而 未 必 是 最 优 的 。 例 如 ， 考 虑 图 15-29 Store 
中 的 两 个 调度 后 的 “钻石 ” 形 dag。 
左边 dag 的 调度 是 次 优 的 ， 因 为 结 点 4 在 作为 右 图 15-28 图 15-26 中 dag 的 代码 年 成 
如 作 数 之 前 是 用 作 左 操作 数 的 ， 这 样 就 必须 做 寄存 器 拷贝 。 另 一 方面 ， 右 边 的 dag 虽 有 同样 的 调度 ， 但 
却 是 最 优 的 ， 因 为 结 点 4 先 用 作 右 操作 数 然后 才 用 作 左 操作 数 。 除 非 我 们 用 的 调度 程序 检查 表达 式 中 的 
子 操作 数 以 及 它们 共享 的 方式 ， 否 则 不 会 总 生成 最 佳 的 (代码 ) 执行 次 序 。 
可 从 许多 方面 对 本 他 启发 式 的 dag 计 算 调度 程序 进行 改进 。 例 如 ， 操 作 数 子 表达 式 往 往 是 棵 树 而 不 
是 dag， 可 以 用 15.6 节 的 技术 来 处 理 。 对 于 可 交换 的 操作 符 ， 其 操作 数 可 以 交换 。 如 果 一 个 操作 数 被 多 
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个 操作 符 用 作 左 操作 数 (将 不 得 不 进行 寄存 器 找 贝 )， 那 么 交换 操作 数 可 使 左 操作 数 变 成 石 操 作 数 ， 而 
代码 质量 可 因此 得 到 改进 。 其 他 启发 式 的 方法 可 和 参见 Aho、Johnson 和 Uliman (1977). 


>< 


图 15-29 两 个 调度 后 的 “钻石 ” 形 dag 


15.7.1 别名 


当 dag 中 包含 别名 的 影响 时 ， 代 码 生 成 将 变 得 更 加 复杂 。 例 如 ， 对 一 个 数组 元 素 〈 如 A(D) ) 的 赋值 
586| “可 能 会 影响 到 看 似 不 同 的 数组 元 素 A(J)。 生 成 dag 时 必须 要 考虑 到 别名 。 

为 处 理 数组 和 指针 ， 必 须 人 允许 表达 趟 产生 地 址 。 特 别 是 ，A(D) 被 表示 成 如 图 15-30 所 示 ， 其 中 Ind 是 
， 下 标 操作 符 。 
r Ind 操 作 符 产生 地 址 。 为 访问 由 地 址 表达 式 引 用 的 值 ， 我 们 用 1 作为 脱 引用 操作 符 ， 就 像 在 Pascal 程 
序 中 的 那样 。 例 如 ，J := A(I) 将 被 表示 为 如 图 15-31 所 示 的 dag。 由 指针 和 引用 型 参数 所 引用 的 值 同 样 通 
过 1 操作 符 来 访问 。 

我 们 将 用 形式 为 %1、%2、… 等 的 内 部 名 字 (internal name) 惟一 地 标记 所 有 地 址 表达 式 。 这 样 做 

可 允许 地 址 表达 式 出 现在 赋值 语句 的 左边 。 在 赋值 后 ， 脱 引用 的 地 址 表达 式 可 用 于 标记 一 个 结 点 。 例 如 ， 
A(I) := J 将 被 表示 为 如 图 15-32 所 示 的 dag。 


T(J) 
Ind Ind Ind(%1)  S(%1T) 
A | A | A | 
图 15-30 A(D) 对 应 的 dag 图 15-31 J := A() 对 应 的 dag = ”图 15-32 A(I) := J 对 应 的 dag 


如 果 没 有 别名 问题 ， 数 组 和 指针 处 理 起 来 将 相当 容易 ， 地 址 表达 式 可 以 像 其 他 公共 子 表达 式 一 样 被 
共享 。 然 而 ， 别 名 还 是 必须 要 解释 说 明 的 ， 并 且 必 须 满 足以 下 三 个 要 求 : 

(D 通过 地 址 表达 式 的 存储 不 能 被 推迟 。 即 Al) := J 在 被 计算 后 必须 被 强制 存储 到 A()。 

(2) 对 数组 元 素 或 堆 对 象 或 引用 型 参数 的 赋值 必须 注销 所 有 可 能 成 为 别名 的 已 标记 的 子 表达 式 。 
例如 ， 在 A(l) := J 后 ， 变 量 J 已 被 标记 为 代表 A(1) 的 当前 值 ( 它 被 表示 为 %11)。 如 果 随后 处 理 
A(L) := K， 那 么 必须 去 除 J 上 的 标记 ， 因 为 如 果 1 = [的 话 ，A(I) 的 值 可 能 已 被 改变 。 

(3) 对 别名 数据 对 象 的 读 写 次 序 必须 加 以 保护 。 假 设 我 们 翻译 A(1) := J; K := AL); 其 dag 如 图 
15.33 所 示 。 这 些 dag 表 明 两 条 语句 之 间 没 有 依赖 关系 ， 就 好 像 A(1) 和 A(L) 是 简单 变量 一 样 。 为 确 
保 正 确 的 执行 次 序 ， 我 们 引入 依赖 级 (dependency arc), 使 一 个 dag 看 起 来 依赖 于 另 一 个 dag， 
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从 而 强制 正确 的 计算 次 序 。 利 用 依赖 弧 ， 我 们 可 以 重 写 dag ， 其 形式 如 图 15-34 所 示 。 现在 ， 对 
A(D) 的 赋值 被 强制 先 于 A(L) 的 使 用 。 


T(K) 


Ind (261) J(%1T) Ind (962) 


A | A L 
图 15-33 AU) =J; K := A(D; 对 应 的 dag 


借助 这 些 改进 ， 可 对 前 面 章节 中 的 调度 、 寄 存 器 分 配 等 技术 加 以 扩展 以 处 理 对 数组 元 素 、 堆 对 象 和 
引用 型 参数 的 引用 。 


T (K) 


ind (951) ind (262) 


L 


| 

| 
A l A | 
J(%1T) 


图 15-34 Jim dag 


15.8 代码 生成 器 的 生成 器 


近年 来 ， 使 用 代码 生成 器 的 生成 器 愈加 普遍 起 来 。 代 码 生 成 器 的 驱动 程序 例 程 遵循 特定 目标 指令 在 
使 用 时 的 规则 来 选择 目标 代码 。 如 果 规 则 改变 了 ， 则 意味 着 要 适应 新 的 指令 或 体系 结构 。 

正如 人 们 所 想像 的 ， 产 生 代码 生成 器 的 生成 器 是 一 件 极 富 挑战 性 的 工作 。 以 下 是 一 些 必须 要 面 对 的 
问题 : | 

。 机 器 的 体系 结构 千差万别 。 代 码 生 成 器 的 生成 器 必须 能 够 适应 特定 机 器 的 “怪人 饼 ， 尽 管 它 们 可 

能 还 不 清楚 这 些 怪 僻 到 底 是 什么 。 

。 尽管 目 标 代 码 不 需要 最 优 ， 但 对 于 自动 生成 代码 的 生成 器 而 言 ， 很 重要 的 一 点 就 是 它 产生 的 代码 

应 该 和 手工 编写 的 代码 生成 器 所 生成 的 代码 在 质量 上 不 相 上 下 。 因 此 ， 就 不 能 再 使 用 那些 将 机 如 

过 度 简化 的 方法 (例如 ， 假 设 机 器 为 简单 的 栈 或 单 -寄存 器 机 器 )。 

。 大 多 数 机 器 能 通过 多 种 方式 来 做 同样 一 件 事情 。 也 就 是 说 ， 一 台 机 器 可 能 有 普通 的 加 法 指令 、 直 

接 加 法 指令 和 递增 指令 。 因 此 ， 应 当 避 免 使 用 那些 不 分 具体 情况 而 满足 于 生成 任意 代码 序列 或 被 

多 种 可 能 的 指令 选择 所 迷惑 而 不 知 所 措 的 代码 生成 算法 。 

。 代码 生成 器 可 能 需要 处 理 与 机 器 无 关 的 优化 问题 。 例 如 ， 试 图 消除 不 必要 的 相同 表达 式 重复 计算 

的 公共 子 表达 式 分 析 ， 就 被 认为 是 机 器 无 关 的 。 然 而 ， 对 目标 机 器 的 依赖 往往 使 事情 复杂 化 。 例 

如 ， 表 达 式 的 重新 计算 有 可 能 比 保存 它 还 “便宜 ”， 而 这 取决 于 具体 机 器 的 细 市 。 

。 代 码 生成 器 必须 相当 快速 ， 同 时 为 兼顾 灵活 性 而 在 某 些 速 度 方面 做 出 的 牺牲 也 应 当 是 可 以 接受 的 。 

代码 生成 器 的 生成 器 强调 描述 -驱动 (description-driven) 技术 。 这 种 技术 以 目标 机 器 上 每 条 指令 
行为 的 精确 的 形式 化 描述 为 输入 ， 将 其 与 所 需 的 操作 相 匹配 以 产生 相应 的 计算 代码 。 机 器 间 的 差别 在 于 
它们 指令 的 效果 ， 而 将 特定 指令 的 效果 与 所 期 望 的 效果 相 匹 配 则 是 代码 生成 任务 的 实质 。 这 点 同上 下 文 
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I 





无 关 分 析 类 似 一 一 不 同 的 文法 产生 不 同 的 分 析 表 ， 但 底层 的 分 析 驱 动 程序 和 分 析 模 型 是 固定 的 。 

描述 ~ 驱动 方法 的 主要 优势 在 于 : 它们 把 实现 者 完全 从 决定 为 给 定 结构 生成 何 种 代码 这 样 紫 杂 的 事 
务 中 解脱 出 来 。 而 实现 者 仅 需 简单 地 用 形式 化 的 方式 精确 地 说 明 每 条 机 器 指令 的 作用 即 可 。 然 后 代码 生 
成 器 搜索 这 些 有 关机 器 的 描述 以 寻找 能 产生 所 需 计 算 的 单个 或 多 个 指令 ; 模式 匹配 可 用 来 取代 解释 和 情 
D. | 

指令 模式 可 以 是 树 形 或 线性 结构 。 根 据 选择 的 指令 模式 ， 匹 配 工 作 可 由 启发 式 搜索 或 形式 化 分 析 技 
术 来 完成 。 

启发 式 搜索 技术 在 进行 搜索 时 创建 子 目 标 并 采用 启发 法 来 试探 地 选择 子 上 且 标 和 匹配 的 次 序 。 分 析 技 
术 则 使 用 简单 的 LR 类 分 析 方 法 ， 有 时 还 附带 有 语义 属性 。 

通过 考察 以 下 示例 ， 可 以 说 明 描述 -驱动 技术 是 如 何 工作 的 。 每 条 目标 机 指令 被 定义 为 它 能 计算 的 
中 间 形 式 子 树 以 及 指令 执行 后 存放 结果 的 子 树 或 结 点 。 例 如 ， 将 寄存 器 保存 到 变 址 内 存单 元 的 存储 指令 
Store Const(R2), R1, H€ V Ul Ed 15-35, 


t R1 —> Null 


Const R2 


Pe] 15-35 Store Const(R2), R1 的 形式 定义 





Store Const, Rt Store 0(R2), R1 Load #Const, R1 
= 人 Const > R1 
Cons Rt ^ ? Null R2 Hi ^? Null 
Mv R2, R1 Load Const(R2), R1 7 Add #Const, R1 
T - 
R1—»R2 * —»R1 Const R1 —»R1 
Const R2 
Add Const(R2), R1 Add R2, R1 
+ + 
/N R2 R1 —»R1 
十 —PR1 
Const R2 


图 15-36 机 器 指令 的 形式 定义 


这 条 规则 说 明 存储 指令 计算 图 形 子 树 且 可 被 替换 为 Null 结 点 。Null 结 点 是 用 来 表示 整个 子 树 已 被 正 
soo] 确 地 匹配 。 其 他 指令 的 定义 如 图 15-36 所 示 。#Const 是 值 为 Const 的 字面 值 ; 1 是 间接 操作 符 。 
591 作为 示例 ， 我 们 为 下 面 的 Pascal 语 句 生成 代码 : 





代码 4 成 和 局部 代码 从 化 3 


A := P1t.B +C; {P 是 指向 记录 的 指针 ) 


/\ N Load P(D1),R1 Load B(R1)R1 
|| VAN 八 
T 8 \ /\, \ A N 


+ + + + 


A AA N 











a) b) c) 
Add C(D1),R1 Store A(D1),R1 
/N Null 
R1 
A 
d) e) 


图 15-37 语句 A := Pt.B+ CHRE RAR 


我 们 从 图 15-37a 所 示 的 表达 式 树 开始 (D1 是 显示 表 寄 存 器 )。 为 生成 代码 ， 我 们 将 匹配 子 树 直 到 产 
生 Null 结 点 为 止 。 我 们 将 在 计算 中 尽量 重复 使 用 寄存 器 (如 ， 与 Load Const(R1)，R2 相 比 ， 我 们 更 偏爱 
Load Const(R1)，R1 ) 。 然 而 ， 我 们 不 允许 改写 显示 表 寄 存 器 。 我 们 首先 装 和 由 P 指 示 的 记录 的 地 址 
( 见 图 1$-37b ) ， 然 后 再 装 和 人 记录 域 B 的 值 ( 见 图 15-37c)。{ 假设 模式 匹配 器 知道 + 是 可 交换 的 或 者 已 保存 
表示 + 的 两 个 操作 数 次 序 的 模式 。) 接着 ，P1.B 和 C 相 加 ( 见 图 15-37d)， 随后， 所 求 和 被 存储 到 A ( 见 图 
15-37e )。 所 生成 的 代码 是 : 


Load P(D1),R1 

Load B(A1),R1 

Add C(D1),R1 

Store A(D1),R1 - 

对 表达 式 树 进 行 不 同 次 序 的 匹配 可 能 会 得 到 不 同 的 代码 序列 。 例 如 ， 我 们 可 以 将 操作 数 C 装 人 到 寄 
存 器 中 ， 然 后 生成 寄存 器 到 寄存 器 加 法 ， 产 生 的 代码 是 : 

Load P(D1),R1 

Load B(R1),R1 
Load C(D1),R2 

R2,R1 

Store A(D1),R1 


如 果 描述 -驱动 代码 生成 器 找到 将 表达 式 树 归 约 为 Null 的 办 法 ， 我 们 就 可 以 生成 正确 的 但 未 必 是 最 
好 的 代码 。 可 以 使 用 启发 式 方法 〈 例 如 ， 我 们 尝试 匹配 尽 可 能 大 的 子 树 以 避免 生成 不 必要 的 指令 )， 但 
即使 这 样 ， 仍 然 会 产生 问题 。 例 如 ， 假 设 我 们 用 Add Const2(R)，Const1 的 加 法 指令 (存储 器 到 存储 器 
的 加 法 ) 取代 了 指令 Add Const(R2), R1; 这 种 情况 下 ， 没 能 将 P1.B 装 入 寄存 器 可 能 引起 代码 生成 器 阻 
X (block) ( 即 ,，“ 受 骗 ” 了 )。 此 时 ， 我 们 可 能 需要 回溯 并 搜索 可 替代 的 代码 序列 。 而 回 济 的 介入 将 使 
代码 生成 器 更 加 复杂 (不 太 容易 “收回 ”代码 ) 且 减 慢 代 码 生 成 器 的 速度 ， 当 回溯 过 于 频繁 时 速度 将 更 
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慢 。 因 此 ， 在 实现 描述 -驱动 代码 生成 器 时 ， 一 个 重要 问题 就 是 必须 了 解 选择 各 种 候选 代码 序列 的 方法 
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并 避免 阻塞 。 


15.8.1 基于 文法 的 代码 生成 器 


在 Glanville 和 Graham (1978) 中 提 到 ， 代 码 模板 和 表达 式 树 匹配 的 问题 与 语法 分 析 时 产生 式 和 记 
号 序列 匹配 的 问题 非常 类 似 。Glanville 和 Graham 敏锐 地 用 语法 分 析 的 术语 重新 表述 了 模板 匹配 问题 。 首 
先 ， 与 直接 的 树 匹配 不 同 ， 他 们 采用 一 种 线性 的 代码 生成 IR (Code-Generation IR, CGIR), ， 也 就 是 一 


| 种 波兰 前 组 形式 。 采 用 这 种 方法 ， 前 面 的 示例 变 为 : 


:=+ADiI+T+1T+PD1BT+CDO1 
这 种 结构 可 以 通过 对 表达 式 树 进行 前 序 遍 历 或 者 通过 扩充 元 组 、 将 结果 临时 变量 替换 为 它们 的 定义 
而 得 到 。 由 于 我 们 希望 能 利用 可 用 的 地 址 模式 ， 因 此 我 们 在 CGIR 中 显 式 地 给 出 了 显示 表 寄 存 器 和 栈 指 针 。 
现在 , 我 们 将 模板 重新 改造 为 普通 的 产生 式 。 对 于 可 交换 的 操作 符 ， 我 们 包括 了 两 种 操作 数 的 顺序 ， 
如 图 15-38 所 示 。 


:= + Const R2 R1 
‘= + R2 Const R1 
:= Const Rt 


— R1 
— T + R2 Const 


— + T + Const R2 H1 
— + Î + R2 Const R1 
— + R1 f + Const R2 
— + R1 T + R2 Const 
— + Const R1 

— + R1 Const 

— + R2R1 

-> + R1 R2 


—- Store Const(R2),R1 
—— Store Const(R2),R1 
~~ Store Const, H1 

—— Store 0(R2),R1 

—- Load #Const,R1 
~~ Load Const(R2), H1 
—— Mv R2,R1 

—-— Load Const(R2),R1 
—— Add Const (R2), R1 


. —— Add Const (R2), H1 


—- Add Const (R2). R1 
—- Add Const (R2), R1 
—— Add #Const,R1 

—- Add #Const,R1 

—- Add R2,R1 

~~ Add R2,R1 





图 15-38 Graham-Glanville 代 码 模板 


和 在 普通 的 上 下 文 无 关 文法 中 一 样 ， 像 R1 或 Const 之 类 的 符号 是 占 位 符 ， 代表 着 某 些 被 匹配 的 特定 
符号 。 这 里 的 R1 并 不 代表 硬件 寄存 三 1 ， 而 是 指 那些 已 被 分 配 且 绑 定 到 符号 R1 的 寄存 器 。 我 们 表示 实 奈 
硬件 寄存 器 的 方式 是 : 显示 表 寄 存 器 用 符号 D1、D2、… 表 示 ， 而 操作 数 寄存 器 用 Reg1、 Reg2、… 表 
示 。 如 果 一 个 符号 在 产生 式 中 出 现 不 止 一 次 ， 那么 与 此 符号 关联 的 特定 信息 在 所 有 情况 下 都 是 一 样 的 。 
例如 ,在 R1 — + R2 R1 中 ， 在 匹配 + 之 后 ， 无 论 哪个 真实 机 器 寄存 器 与 R1 关 联 都 将 被 认为 保存 着 那个 
刚 被 计算 出 的 和 。 

我 们 将 使 用 与 普通 的 基于 LR 的 技术 ( 见 第 6 章 ) 相 类 似 的 分 析 技 术 。 然 而 ， 必须 对 分 析 器 做 少许 修 
改 以 处 理 指令 选择 中 的 二 义 性 。 首先， 如果 有 移 进 - 归 约 冲突 (分 析 器 此 时 可 以 识别 产生 式 或 继续 读 入 )， 
那么 总 是 先 执 行 移 进 。 这 种 改动 对 应 着 在 启发 式 方法 中 仅 在 需要 时 才 生 成 相关 代码 。 其 次 ， 如 果 有 归 
约 - 归 约 冲突 (两 个 或 更 多 的 产生 式 被 识别 )， 将 考虑 多 个 独立 规则 以 确定 哪 一 个 指令 序列 更 好 。 同 样 ， 
在 识别 产生 式 前 还 必须 检查 某 些 限 制 条 件 。 因 此 ， 在 R1 一 + R2 R1 中 ， 我 们 需要 核实 R1 可 以 被 修改 ， 
因为 它 将 保存 求 和 的 结果 。 这 些 限 制 使 我 们 可 以 保证 显示 表 寄 存 器 在 计算 过 程 中 不 会 遭 到 破坏 。 

我 们 通过 为 前 面 的 示例 生成 代码 来 举例 说 明 该 方法 的 工作 过 程 。 注 意 ， 分 析 器 将 自动 匹配 所 有 可 行 
的 产生 式 ， 因 此 ， 如 果 某 个 指令 序列 有 可 能 被 匹配 ， 那么 它 就 会 被 考虑 。 分 析 器 首先 读 入 := + A D1. 


_ 它 必须 和 下 面 有 关 存 储 的 产生 式 之 一 相 匹 配 : 





代码 生成 和 局 部 代码 优化 381 


Null 2 := « Const R2 R1  -- Store Const(R2).R1 


Null  : « R2 Const R1 —- Store Const(R2),R1 
Null  :» Const R1 -- Store Const, R1 
Null := R2 R1 —— Store 0(R2),R1 


如 果 表 达 式 剩余 部 分 可 由 R1 匹 配 ， 那 么 可 以 使 用 第 一 条 产生 式 。 其 他 可 能 的 情况 还 有 ， 如 有 果 我 们 
让 R2 匹 配 常量 A， 则 第 二 条 产生 式 将 被 选用 。 但 根据 尽 可 能 移 进而 非 归 约 的 原则 ， 我 们 否决 了 这 种 可 能 
性 。( 该 规则 使 我 们 可 以 避免 不 必要 地 把 A 装 和 寄存 器 的 操作 . ) 类 似 地 ， 第 4 条 产生 式 将 在 R2 匹 配 + A 
D1 时 被 使 用 。 但 这 个 选择 再 次 被 否决 ， 因 为 我 们 宁可 移 进 也 不 归 约 (并 可 再 次 避免 不 必要 的 装 入 )。 

现在 我 们 知道 : 表达 式 的 剩余 部 分 : 

+T+T+PDIBT+CDi 
必须 和 以 R1 为 左 部 的 某 个 产生 式 相 匹配 。 可 能 的 产生 式 有 : 


R1 一 + Const R1 ~~ Add #Const,R1 

R1 一 + R1 Const —— Add #Const,R1 
R1—> +T+ConstR2R1  -- Add Const (R2),R1 
RI 一 +T+R2ConstR1 --Add Const (R2),R1 
R1 > +R17T+ConstR2 —- Add Const (R2),R1 
R1 =- +R1T+R2Const -— Add Const (R2),R1 
R1 一 + R2A1 -~ Add R2,R1 

R1 一 + Ri R2 —— Add R2,H1 


我 们 使 用 其 中 的 第 4 条 产生 式 来 匹配 最 长 可 能 的 前 级 。 这 就 意味 着 该 产生 式 的 其 他 部 分 R2 Const 
R1 必 须 与 
T+PD1B 1 +C D1 


相 匹配 。 此 时 首先 使 用 R1 —1 + Const R2 并 生成 Load P(D1)，Reg1。 然 后 B 匹 配 Const， 并 再 次 使 用 
刚才 那个 产生 式 匹配 f + C D1。 因 而 生成 代码 Load C(D1), Reg2. 至 此 该 加 法 产生 式 已 全 部 匹配 ， 我 
们 生成 代码 Add B(Reg1)，Reg2。 而 此 时 存储 产生 式 也 全 部 匹配 ， 因 此 我 们 生成 代码 Store A(D1), 
Reg2。 整 个 代码 序列 如 下 : | 
Load . P(D1),Hegt 
Load C(D1),Reg2 


Add B(Reg1),Reg2 
Store A(D1),Reg2 


上 述 代码 序列 不 是 最 优 的 ， 因 为 它 用 了 两 个 寄存 器 ， 而 事实 上 一 个 寄存 器 即 可 满足 了 要求: 

Load P(D1),Reg!1 | 

Load B(Reg1),Reg1 

Add C(D1),Reg1 

Store A(D1),Reg1 | 

这 个 问题 出 在 我 们 总 是 试图 尽 可 能 避免 代码 的 生成 。 因 此 ， 我 们 看 到 : 指令 Load B(Reg1), Regi 
可 以 通过 将 B(Reg1) 作 为 Add 指 令 的 操作 数 而 得 以 避免 。 在 这 个 例子 中 ， 该 策略 没有 成 功 ， 因 为 我 们 终 
结 了 必须 生成 的 C(D1) 的 装 入 代码 。 尽 管 如 此 ， 我 们 还 是 注意 到 : 如 果 第 二 操作 数 已 在 寄存 器 中 《例如 ， 
因为 它 是 表达 式 而 非 变量 )， 那 么 避免 装 人 B(Reg1) 可 能 就 是 应 该 做 的 事情 。 

一 般 地 ， 直 接 代 码 生 成 器 在 它们 看 清楚 第 二 操作 数 之 前 就 必须 决定 如 何 处 理 指令 的 第 一 操作 数 ! 因 
此 ， 它 们 试图 推迟 那些 必需 的 操作 ， 尤 其 是 装 入 ， 直 到 有 绝对 必要 时 。 这 有 了 时 会 导致 次 优 的 代码 。 在 生 
成 代码 前 检查 两 个 操作 数 的 代码 改进 技术 可 参见 文献 Christopher、 Hatcher 和 Kukuk (1984) 以 及 Aho、 
Ganapathi 和 Tjiang (1989). 

Graham-Glanville 方 法 好 的 一 面 是 它 能 够 在 构造 代码 生成 器 时 发 现 潜在 的 阻塞 状态 。 特 别 是 ， 如 采 
基于 代码 生成 产生 式 的 分 析 器 达到 这 么 一 个 状态 ， 该 状态 中 一 个 产生 式 已 部 分 匹配 但 剩余 部 分 却 不 能 被 
有 效 的 操作 数 或 表达 式 匹 配 ， 那 么 代码 生成 器 就 可 能 阻塞 。 例 如 ， 假定 有 些 奇怪 的 原因 促使 我 们 只 有 寄 
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存 器 到 存储 器 加 法 却 没 有 寄存 器 到 寄存 器 加 法 。 我 们 或 许 能 发 现 这 样 的 分 析 状 态 ， 其 中 ，+ 和 某 个 寄存 
器 已 被 匹配 ， 剩 下 一 个 待 匹 配 的 存储 位 置 。 然 而 ， 如 果 第 二 操作 数 已 在 寄存 器 中 ， 那 么 我 们 就 会 “ 卡 ” 
在 这 里 。 此 类 状态 代表 着 一 种 错误 的 情形 ， 那 时 我 们 不 能 为 所 有 有 效 的 输入 生成 正确 的 代码 。 

为 解决 这 个 问题 ， 我 们 可 以 添加 新 的 产生 式 以 匹配 剩余 的 操作 数 。 对 于 我 们 的 例子 ， 可 以 添加 如 下 
FEA: | 


Value > T Const 
Value — R1 —- Store Value(0), R1 


它们 通知 代码 生成 器 ， 一 个 值 可 以 通过 提取 存储 单元 的 内 容 而 获得 。 若 需要 的 话 ， 在 寄存 器 中 的 值 可 以 
被 存储 到 内 存单 元 中 ， 接 着 再 从 内 存单 元 中 提取 出 来 充当 操作 数 。 

Graham-Glanvilie 代 码 生成 技术 已 在 许多 实验 性 编译 器 中 测试 过 ， 并 开始 出 现在 产品 编译 器 中 。 为 
提高 代码 生成 速度 ， 通 常 通 过 引入 特殊 符号 和 产生 式 来 减少 语义 检查 的 次 数 。 例 如 ， 像 Zero、One、 
Two、Four 和 Eight 等 特殊 符号 可 以 表示 指令 中 出 现 的 “ 魔 数 " 。 类 似 地 ， 对 各 种 属性 值 ， 我 们 将 用 各 种 
不 同 的 符号 而 不 是 配备 了 属性 (byte. long. real. longreal) 的 单个 符号 来 表示 它们 。 

使 用 语法 来 编码 语义 检查 ， 其 缺点 是 符号 和 产生 式 的 数目 将 变 得 很 大 。( 对 于 VAX 机 器 ， 据 称 它 的 
机 器 描述 文法 包含 1073 条 产生 式 、219 个 终结 符 、148 个 非 终 结 符 和 2216 分 析 状 态 .) SEE E, S 
LALR(1) 生 成 器 作用 于 机 器 描述 文法 时 ， 它 往往 要 耗费 数 小 时 来 产生 代码 生成 器 表 。 然 而 ， 特 别 设计 的 
表 生 成 器 可 以 显著 地 提高 产 出 率 (Henry et al.，1984)。 

代码 生成 的 速度 主要 取决 于 底层 的 分 析 过 程 ， 其 时 间 多 花 在 产生 式 链 的 分 析 以 及 分 析 表 条 目的 存 取 
和 操作 上 。 据 报导 ， 这 种 代码 生成 的 速度 大 约 比 产品 编译 器 的 速度 慢 50% 。 通 过 精心 设计 ， 该 方法 所 生 
成 的 代码 可 以 和 那些 普通 的 非 优化 编译 器 所 生成 的 代码 在 质量 上 一 较 高 低 。 


15.8.2 在 代码 生成 器 中 使 用 语义 属性 


Graham-Glanville 方 法 的 局 限 性 在 于 它 是 纯 语法 的 。 也 就 是 说 ， 它 主要 通过 上 下 文 无 关 的 方式 匹配 
符号 序列 。 而 代码 生成 过 程 的 其 他 方面 则 被 非 形式 化 地 处 理 。 例 如 ， 符 号 可 以 关联 语义 值 ， 但 在 文法 中 


无 法 显现 这 些 值 确切 是 什么 以 及 在 哪里 计算 。 类 似 地 ， 即使 代码 生成 产生 式 匹配 一 个 CGIR 符 号 序列 ， 


它们 也 可 能 是 不 可 用 的 。 因 为 只 有 非 上 下 文 无 关 的 约 东 可 以 使 用 〈 地 址 也 许 需 要 对 齐 到 字 边 界 ， 立 即 操 
作 数 的 值 也 许 需 要 在 一 定 的 范围 内 ， 等 等 )。 这 些 非 上 下 文 无 关 的 约束 不 能 直接 在 产生 式 中 表示 ， 而 必 
须 在 别 的 什么 地 方 加 以 体现 ， 就 如 同 语义 规则 和 普通 的 上 下 文 无 关 产生 式 分 开 那 样 。 

在 Ganapathi 和 Fischer (1985) 中 ， 通 过 将 属性 产 4 X (attributed production) 用 作 代码 模板 来 解决 
这 些 问题 。 首 先 ， 显 式 的 属性 值 被 包括 进 文 法 符号 中 。 这 些 属性 代表 着 与 符号 相关 并 与 之 存 帮 在 一 起 的 
信息 。 两 种 新 的 符号 ， 即 动作 符号 (action symbol) 和 谓词 符号 《predicate symbol), ， 连 同 终结 符 和 非 
终结 符 一 起 被 添加 到 代码 模板 中 。 动 作 符号 封装 了 新 属性 值 和 的 计算 和 带 有 副作用 (尤其 是 代码 生成 ) 的 
操作 。 它 们 以 # 为 前 级 ， 如 同调 用 语义 例 程 的 动作 符号 一 样 。 

谓词 符号 类 似 于 动作 符号 。 然而， 它们 不 产生 属性 值 。 相 反 地 ， 它 们 在 被 调用 时 ， 产生 真 值 或 假 值 。 
如 果 谓 词 为 真 ， 那 么 包含 此 谓词 的 产生 式 的 匹配 工作 将 继续 进行 。 如 果 谓 词 为 假 ， 那 么 该 产生 式 将 不 再 
被 考虑 。 为 清楚 起 见 ， 所 有 谓词 均 带 有 后 绥 ?。 谓 词 是 一 种 方便 的 、 能 够 精确 定义 产生 式 应 用 场合 的 机 
制 。 从 代码 生成 的 角度 看 ， 这 是 一 项 重要 的 改进 ， 因 为 现在 的 机 器 描述 是 一 个 属性 产生 式 ， 它 能 精确 地 
定义 ( 带 属 性 的 ) 中 间 形 式 符号 与 机 器 指令 之 间 的 对 应 关系 。 

作为 示例 ， 考 虑 下 面 的 产生 式 : 

Long(R) 一 + Long(A) Long(R) fsOne?(A) Dead?(R) #emit(IncL,R) 
该 产生 式 匹配 两 个 长 整 型 操作 数 相 加 并 产生 长 整 型 结果 。 在 应 用 该 产生 式 前 ， 必 须 验证 它 的 左 操作 数 是 





RAGE RR ERR SB 


否 为 1 以 及 右 操作 数 是 否 “ 死 亡 ”( 车 是 ， 则 可 以 “撤销 ” 它 )。 当 且 仅 当 这 些 条 件 满足 时 ， 将 生成 一 个 
长 整 型 增 量 指令 IncL。 

产生 式 中 的 谓词 决定 该 产生 式 能 否 被 使 用 。 如 果 有 多 条 产生 式 被 启用 《〈 即 谓词 为 真 )， 那 么 此 时 必须 
有 某 种 消除 二 义 性 的 办 法 。 出 于 代码 生成 的 目的 ， 可 将 产生 式 按 两 种 顺序 排列 成 表 。 其 中 一 种 是 以 指令 


大 小 的 递增 序 排 列 ， 而 另 一 种 则 按 速度 的 递减 序 排列 。 根据 优化 的 对 象 是 代码 大 小 还 是 速度 ， 我 们 将 无 


二 义 地 从 代码 大 小 或 速度 列表 中 选择 最 早 “局 用 ”的 产生 式 。 

出 于 代码 生成 的 目的 ， 可 将 属性 产生 式 分 成 三 类 。 第 一 类 表示 地 址 模式 产生 式 。 它 们 将 中 间 形 式 与 
目标 机 地 址 模式 相 匹配 。 它 们 可 以 产生 也 可 以 不 产生 代码 。 例 如 : 

Adr(A) — Index Obj(Offset,Size) Base(Reg) #build_adr(Offset,Size,Reg,A) 


可 以 和 活动 记录 中 常用 的 访问 数据 的 变 址 操作 相 匹 配 。 如 果 变 址 操作 包含 常量 偏 移 和 基 址 寄存 器 ， 那 么 


我 们 只 是 简单 地 在 属性 A 里 构造 一 个 地 址 描述 符 。 然 而 ， 也 有 变 址 操作 的 第 二 个 操作 数 不 是 基 址 寄存 器 ， 


的 情况 。 下 面 的 产生 式 预 见 了 这 种 情况 : 


Adr(A) — Index Obj(Offset,Size) Adr(B) #get_ reg(Long,R) 
stemit(MovL,B,R) #build_adr(Offset,Size,R,A) 


此 例 中 ,我们 通过 调用 get_reg() 来 获得 一 个 寄存 器 ， 然 后 我 们 生成 将 第 二 个 操作 数 的 内 容 传送 至 该 寄 
存 器 的 指令 ， 接 着 再 构建 一 个 地 址 ， 它 包含 偏 移 和 新 装 入 的 基 址 寄存 器 。 我 们 注意 到 : 产生 式 的 次 序 很 
重要 ， 因 为 我 们 尽力 避免 生成 不 必要 的 代码 。 此 外 ， 可 以 创建 另 一 对 变 址 产生 式 用 来 覆盖 那些 Index 操 
作 符 中 操作 数 顺 序 可 变 的 情况 ， 其 中 基 址 寄存 器 或 地 址 可 以 出 现在 偏 移 值 的 前 面 。 
第 二 类 属性 产生 式 包 含 操作 数 传送 (operand transfer) 操作 。 它 们 用 来 处 理 转 换 ， 以 便 在 使 用 破坏 
性 操作 时 保护 操作 数 (如 在 两 地 址 的 加 法 中 ) 以 及 处 理 非 正 交 性 操作 ( 即 ， 不 是 所 有 的 操作 数 或 地 址 格 
式 都 可 用 于 某 个 给 定 的 操作 )。 这 些 产生 式 对 防止 阻塞 至 关 重要 。 它 们 可 以 产生 也 可 以 不 产生 代码 。 例 
an, IE: | 
Long(B) — Adr(B) IsLong?(B) 
该 产生 式 匹 配 代表 地 址 的 一 个 非 终 结 符 并 查验 它 代 表 的 对 象 是 否 为 长 整 型 格式 。 如 果 需 要 转换 ， 可 使 用 
下 面 的 产生 式 (CvtWL 将 字 类 型 操作 数 转换 为 长 整 型 操作 数 ): 


Long(A) — Adr(B) ConvertLong?(B) #get_ temp(Long.A) #emit(CVviWL,B,A) 


第 三 类 属性 产生 式 是 用 来 选择 那些 实现 各 种 操作 的 指令 序列 。 正 常情 次 下 ， 可 能 出 现 多 条 产生 式 ， 
因为 同一 种 操作 可 以 用 不 同 的 目标 指令 来 实现 。 例 如 ， 考 虚 如 图 15-39 所 示 的 产生 式 。 


Long(R)  — +Long(A) Long(R) IsZero?(A) 


Long(R) — +Long(A) Long(R) IsOne?(A) Dead?(R) semit(IncL,R) 


Null — := Long(A) + Long(A) Long(B) #emit(Addl2,B,A) 

Long(R) — + Long(A) Long(R) Dead?(R) #emit(AddL2,A,R) 

Null — := Long(C) + Long(A) Long(B) #emit(AddL3,A,B,C) 
Long(R) — +Long(A) Long(B) #get_temp(Long,R) #emit(AddL3,A,B,R) 





15-39 代码 生成 的 属性 模板 - 


“上述 产 生 式 按 最 特殊 的 到 最 一 般 的 情况 排序 ， 其 中 谓词 控制 着 各 种 选择 的 可 用 性 。 首 先 ， 测 试 与 0 
相 加 的 特殊 情况 。 如 果 是 这 种 情况 ， 那 么 不 会 有 代码 生成 。 然 后 考虑 把 1 与 一 个 非 活跃 值 相 加 的 情况 。 
接 下 来 ， 列 出 的 是 加 法 的 操作 数 之 一 是 加 法 目的 地 的 情况 。 如 果 加 法 操作 数 之 一 非 活跃 ， 那 么 此 操作 数 
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可 被 重 写 ， 规 则 中 包含 了 这 种 可 能 性 。 最 后 ， 考 虑 的 是 最 一 般 且 最 昂贵 的 加 法 形式 一 一 三 操作 数 加 法 ， 
它 或 者 在 赋值 语句 的 上 下 文中 ， 或 者 作为 产生 长 整 型 结果 的 子 表达 式 。 
为 处 理 可 交换 操作 符 〈 如 + 操作 符 )， 我 们 使 用 表示 (两 种 ) 操作 数 顺 序 的 两 条 产生 式 。 我 们 注意 到 : 
如 果 一 个 操作 的 最 后 一 条 ( 即 最 一 般 的 ) 产生 式 不 包含 谓词 ， 那 么 就 不 会 发 生 阻塞 。 否 则 ， 我 们 必须 规 
定 在 所 有 情况 下 ， 对 于 某 个 给 定 的 操作 数 ， 至 少 有 一 个 产生 式 可 被 局 用。 
作为 属性 化 代码 生成 的 示例 ， 重 新 考虑 前 面 章节 中 的 例子 : A := P1.B + C。 当 此 例子 被 翻译 成 一 
个 属性 化 CGIR 时 ， 我 们 有 : 
= Index Obj(A,Long) Base(D1) + Index Index Obj(P.Long) Base(D1) 
Obj(B,Long) Index Obj(C,Word) Base(D1) 
其 中 ， 括 号 里 的 属性 值 表 示 操 作 数 的 字 池 长 度 和 偏 移 。 假 定 A、P 和 8B 是 长 整数 ，C 是 字 型 整数 。index 
操作 符 可 用 来 访问 被 分 配 在 活动 记录 中 的 变量 或 访问 记录 域 。 因 为 地 址 和 值 均 为 显 式 的 ， 所 以 不 需要 插 
入 显 式 的 人 (我 们 可 以 那么 做 ， 如 果 我 们 希望 将 地 址 强制 转换 为 值 的 话 )。 
首先 识别 那个 包含 A 的 变 址 操作 ， 并 产生 : 
:= Adr(Long,(A,D1)) + Index Index Obj(P,Long) Base(D1) Obj(B, Long) 
index Obj(C, Word) Base(D1) 
Adr 的 属性 表明 : 它 的 操作 数 的 长 度 为 长 整 型 且 它 的 地 址 是 (A，D1)。 接 下 来 ， 操作 数 A 被 识别 为 具有 长 
整 型 格式 : 
:= Long(A,D1) + Index Index Obj(P,Long) Base(D1) Obj(B,Long) 
Index Obj(C, Word) Base(D1) 
再 接 下 来 ，P 被 匹配 为 一 个 Adr: 


:= Long(A,D1) + Index Adr(Long,(P,D1)) Obj(B, Long) 
Index Obj(C,Word) Base(D1) 


下 一 步 ， 包 含 P 和 B 的 变 址 操作 被 匹配 。 因 为 这 个 操作 包含 的 是 Adr 而 非 Base， 所 以 我 们 必须 分 配 寄存 
器 (如 ，R1)， 并 通过 生成 MovL(P, D1)，R1 指 令 将 其 装 和 人。 现在 我 们 有 : | 
:= Long(A,D1) + Adr(Long,(B,R1)) Index Obj(C, Word) Base(D1) 


这 个 操作 数 (Adr(Long, (B,R1))) 被 识别 为 Long 操 作 数 ， 且 C 被 识别 为 Adr， 其 操作 数 长 度 为 Word: 


:= Long(A,D1) + Long(B,R1) Adr(Word,(C,D1)) 
此 刻 ， 因 为 没有 混合 长 度 的 加 法 操作 ，C 将 被 转换 为 长 整 型 长 度 的 操作 数 。 我 们 分 配 临 时 变量 T， 并 通 
过 生成 指令 CvtWL (C, D1), T 将 C 转 换 为 长 整 型 格式 。 现 在 我 们 有 : 

:= Long(A,D1) + Long(B,R1) Long(T) 
它 将 被 完全 匹配 ， 产 生 Null， 且 生成 指令 AddL3 (B, R1), T, (A,D1)。 最 终生 成 的 代码 序列 为 : 


MovL (P,D1),R1 
CvtWL — (C,D1),T 
AddL3 . (B, R11), T,(A,D1) 


在 像 VAX 一 类 的 体系 结构 上 ， 这 是 语句 A := P1.B + C 的 一 个 非常 理想 的 翻译 。 

属性 化 代码 生成 的 好 处 之 一 在 于 : 它 很 容易 通过 添加 新 的 产生 式 、 谓 词 或 动作 符号 来 逐步 提高 所 生 
成 代码 的 质量 。 因 此 ， 如 果 和 希望 利用 移 位 指令 来 实现 某 些 乘法 ， 那 么 所 要 做 的 仅仅 是 添加 新 的 产生 式 ， 
所 附带 的 谓词 将 定义 应 用 新 产生 式 的 时 机 。 该 方法 其 他 的 好 处 是 ， 它 使 得 更 精细 的 优化 成 为 可 能 。 例 如 ， 
有 时 候 我 们 很 希望 推迟 或 禁止 赋值 操作 。 也 就 是 说 ， 给 定 A := B， 我 们 可 以 推迟 赋值 操作 。 只 要 B 值 不 
改 恋 ， 那 么 对 A 值 的 引用 就 可 以 被 替换 为 对 B 值 的 引用 (这 称 为 复写 传播 )。 





为 实现 此 类 优化 ， 我 们 可 以 引入 新 的 称 为 delay 的 动作 符号 。delay 类 似 于 emit， 但 它 将 推迟 实际 生 
成 指令 直到 它 迫 不 得 已 而 为 之 。 事 实 上 ， 它 起 到 一 个 过 滤器 作用 ， 将 指令 排队 于 缓冲 区 中 并 在 需要 的 时 
候 实 际 生成 。 有 趣 的 是 ， 为 实现 该 方法 ， 我 们 仅 需要 修改 emit 例 程 来 缓冲 指令 即 可 。 而 基本 的 代码 生成 
方法 根本 不 需 改动 。 

基于 属性 的 实验 性 代码 生成 器 已 在 多 种 机 器 (如 PDP-11、VAX 和 iAPX-86) 上 生成 。 在 VAX 机 器 上 ， 
创建 一 个 代码 生成 器 通常 需要 几 分 钟 时 间 。 具 有 丰富 指令 集 的 VAX 机 器 和 具有 非 正 交 指令 集 的 APX-86 
机 器 ， 它 们 中 每 一 个 均 需 要 大 约 600 条 产生 式 和 1200 个 分 析 器 状态 。 而 在 某 种 程度 上 较 简 单 的 PPP-11 机 
器 也 需要 大 约 400 条 产生 式 和 800 个 分 析 器 状态 。 它 们 的 代码 生成 速度 为 每 分 钟 数 千 条 指令 。 据 估计 ， 将 
这 种 代码 生成 器 移植 到 新 的 体系 结构 上 约 耗 时 一 个 月 左右 。 

同 本 地 编译 器 比较 ， 这 种 代码 生成 器 所 生成 的 代码 的 质量 非常 好 ， 与 那些 普通 的 非 优化 编译 器 所 生 
成 的 代码 也 可 以 一 较 高 低 。 简 言 之 ， 属 性 化 代码 生成 器 特别 擅长 利用 特殊 指令 、 硬 件 寻 址 模式 和 寄存 器 。 


15.8.3 生成 痪 孔 优 化 器 


文献 (Fraser and Davidson, 1980) 中 讨论 了 各 种 自动 创建 罕 孔 优化 器 的 方法 。 其 想法 首先 是 在 寄 
存 器 -传送 旦 定义 目标 机 指令 的 执行 效果 。 在 这 一 层 里 ， 指 令 可 以 修改 基本 硬件 单元 ， 包 括 内 存单 元 
(用 向 量 M 表 示 )、 寄 存 器 (用 向 量 R 表 示 )、PC (程序 计数 器 ) 以 及 各 种 条 件 码 等 。 例 如 ， 在 寄存 器 - 传 
送 层 ， 我 们 可 以 有 以 下 指令 序列 (PC 作为 指令 执行 的 一 部 分 而 被 隐 式 地 增加 站 


R[3] e R[3] +1 一 一 寄存 器 3 加 1 

M[cl <0 一 一 内 存单 元 c 置 0 

PC (NZ =0 二 140 eise PC) —— SRA (NZ) 为 0 
一 一 则 跳 转 到 140 


一 条 目标 机 指令 或 许 有 多 种 执行 效果 ， 因 此 它 在 寄存 器 -传送 层 的 定义 需 包 括 更 多 的 赋值 任务 (或 
& SL): 


Addsd d«d+s; 
NZ—d+s?70 一 一 7 是 比较 操作 符 


在 此 例 中 ， 加 法 指令 对 其 操作 数 进行 相 加 ， 把 结果 放 入 第 二 个 操作 数 中 ， 并 根据 结果 的 符号 设置 条 
件 码 。 这 些 寄存 器 -传送 的 效果 可 以 被 认为 是 同时 发 生 的 ， 因 为 它们 都 是 同一 条 指令 组 成 的 一 部 分 。 

操作 数 可 以 利用 各 种 寻 址 模式 ， 且 它们 也 可 在 寄存 器 -传送 层 定义 并 被 包括 在 指令 中 以 表示 指令 全 
部 执行 效果 。 例 如 ， 指 令 Add 100(R2), @R3 定 义 如 下 ， 其 中 @ 表 示 间 接 操 作 : 


QR3  « @R3 + 100(R2); 
NZ . « @R3 + 100(R2) ?0 


上 述 序列 扩充 为 : 


MIRI3] “< MIR[3]] + MIR(2j+100]; 
NZ e M[R[3] + MIR[2]-100] ? 0 


罕 孔 优化 器 (PO) 的 工作 方式 是 : 考虑 指令 对 ， 将 它们 扩充 为 寄存 器 -传送 层 定义 ， 进 而 简化 指令 
组 合 的 定义 ， 并 随后 搜索 与 组 合 指令 对 具有 相同 执行 效果 的 单条 指令 。 考 虑 : 


SUB #2,R3 ”一 一 从 R3 减 去 2 | 
CLR @R3 ”一 一 请 零 出 R3 所 指 的 单元 


首先 ， 上 述 定义 被 替换 为 : 


RI3] —RI3}-2; NZ 一 RI3]-2?0 
MIR[3] «0; NZ «070 


我 们 注意 到 : NZ 的 第 一 次 赋值 可 被 忽略 ， 因 为 在 第 一 次 的 值 被 引用 之 前 第 二 次 赋值 就 已 经 重 置 了 
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NZ 的 值 。 进 而 ， 我 们 将 第 二 条 指令 中 R[3] 的 引用 赫 换 为 第 一 条 指令 中 赋予 R[3] 的 表达 式 。 于 是 有 : 
R[3] — RI3] - 2; M{R[3+-2] - 0; NZ 070 
该 模式 匹配 使 用 自动 递减 的 清 零 指 令 ; 因此 ，PO 将 它们 替换 为 CLR-(R3)。 
为 切实 可 行 ， 单 条 指令 必须 完成 组 合 指令 中 所 有 的 寄存 器 传送 。 此 外 ， 它 也 可 以 做 其 他 一 些 不 起 作 
用 的 寄存 器 传送 ( 即 ， 这 些 寄存 器 传送 不 会 对 后 续 计算 产生 影响 )。 因 此 ， 在 单条 指令 中 也 可 以 设置 条 
件 码 ， 即 使 这 并 不 需要 ， 但 只 要 该 条 件 码 不 被 后 面 的 指令 引用 即 可 。 
开始 于 条 件 分 支 的 指令 对 将 受到 特别 对 待 。 特 别 地 , 第 二 条 指令 被 冠 以 与 初始 条 件 相反 的 条 件 (Bil, 
仅 当 前 面 的 条 件 分 支 不 成 立 ， 才 可 以 执行 第 二 条 指令 )。 例 如 ， 假 定 我 们 有 : 
BZ L1 
B L2 
L1: 
它 被 扩充 为 : 
PC e (NZ = 0 = L1 else PC) 
PC e Le 
Lt: 
我 们 包含 求 反 条 件 后 得 到 : 
PC e (NZ=0 = L1 else PC) 


PC — (NZ £0 = L2 else PC) 
Li: 


PO 做 代数 简化 后 得 到 : 


PC e (NZ =0 = L1 else L2) 
L1: 


然后 重 写 得 到 : 


PC e (NZ +0 =» L2 else L1) 
L1: 


最 后 ， 我 们 得 到 : 


PC e (NZ «0 = L2 else PC) 
L1: 


它 被 匹配 为 : 


BNZ L2 
L1: 


因此 ，PO 就 发 现 了 一 个 常见 的 优化 





后 面 伴随 一 个 无 条 件 分 支 的 条 件 分 支 可 被 替换 为 一 个 原先 


标号 本 身 也 可 被 请 除 ， 这 样 就 有 可 能 发 现 新 的 优化 机 会 . 
上 面 描 述 的 指令 分 析 与 简化 实际 上 并 不 是 在 编译 期 间 完成 的 ， 因为 那样 做 的 话 ， 编 译 速 度 将 会 非常 
i. EKE, 我 们 已 经 提前 对 一 些 有 代表 性 的 实际 程序 的 样本 进行 了 分 析 ， 并 把 最 常见 的 罕 孔 优化 保存 
在 一 张 表 里 。 在 编译 时 ， 可 参考 这 张 表 来 决定 落 在 “ 孔 中 的 指令 能 否 被 优化 。 
Davidson 和 Fraser 注 意 到 : 罕 孔 优化 可 用 来 极 大 地 简化 代码 生成 。 这 个 想法 是 : 代码 生成 器 仅 需 利 
用 最 一 般 的 指令 格式 和 机 器 最 基本 的 寻 址 模式 ， 而 依靠 窥 孔 优化 发 现 那些 可 被 替换 的 特殊 用 途 的 指令 。 
在 对 这 种 方法 进行 相当 极端 的 测试 中 ， Davidson 和 Fraser 设 想 了 一 个 生成 简单 的 P- 代 码 风格 指令 的 编译 





器 。 这 些 指令 以 宏 展开 的 方式 被 扩展 为 PDP-1 的 代码 ， 而 罕 孔 优化 紧 接 着 被 执行 。 在 多 数 情况 下 ， 产 生 
的 代码 在 代码 大 小 上 可 与 本 地 的 PDP-11 编 译 器 所 生成 的 代码 进行 比较 。 这 个 结果 告诉 我 们 ， 这 种 首先 生 
成 较 粗 粮 的 代码 、 然 后 再 使 用 宅 孔 优化 对 其 精练 改进 的 方法 也 许 是 可 行 的 。 


15.8.4 基于 树 重 写 的 代码 生成 器 的 生成 器 


Cattell 提 出 了 基于 树 重 写 的 代码 生成 器 的 生成 器 (Cattell 1980 )。 使 用 该 方法 时 ， 首 先 利用 寄存 器 - 
传送 符号 描述 每 条 指令 的 执行 效果 。 然 后 ， 代 码 生 成 器 通过 匹配 指令 和 玉树 “发 现 ” 合 适 的 代码 序列 。 
也 就 是 说 ， 代 码 生 成 器 寻找 适当 的 方式 将 表达 式 树 分 解 为 特殊 的 原始 (primitive) 树 的 组 合 。 

如 前 所 述 ， 有 多 种 方法 可 以 对 树 进 行 分 解 ( 即 ， 有 多 种 可 以 计算 它 的 代码 序列 )。 然 而 ， 在 过 到 不 
能 约 减 至 基本 指令 的 树 时 ， 分 解 过 程 可 能 受阻 。 此 时 ， 需 要 回溯 以 寻找 别 的 分 解 方式 。 尽管 如 此 ， 这 种 
代码 生成 速度 可 能 慢 得 令 人 难以 接受 。Cattell 解 决 这 个 问题 的 方法 是 将 代码 生成 器 的 创建 分 成 两 部 分 。 

B MRAR (selec), BORTE RO eee on cme cm 

也 就 是 要 实现 的 树 模式 的 一 个 目录 。 一 旦 选 定 树 模式 ， 那 么 将 开始 称 为 搜索 〈search) 的 第 二 阶段 。 
索 ” 为 每 一 个 选 定 的 模式 寻找 可 能 的 实现 。 在 代码 生成 器 创建 期 间 ， 它 只 运行 一 次 。 mec me 
可 能 的 代码 序列 并 选择 其 中 最 适合 的 一 个 。 该 序列 随后 被 保存 在 一 张 表 里 并 在 编译 时 用 来 替换 相应 的 树 。 
EM 阶段 被 设计 用 来 保证 所 有 可 能 出 现 的 大都 能 被 分 解 为 子 钢 ， 而 与 子 树 等 价 的 目标 代码 (已 被 
“搜索 ”阶段 ) 保存 在 表 中 。 

Cattell 代 码 生 成 器 的 性 能 相当 好 。 树 能 够 以 每 秒 数 千 条 指令 的 速度 被 映射 到 目标 代码 ， 尽 管 其 他 的 
代码 生成 组 件 可 能 会 降低 代码 生成 的 总 体 速度 。 代 码 生 成 器 的 生成 器 的 速度 相当 慢 ， 大 约 每 秒 10 个 子 树 。 

Cattell 方 法 中 最 有 趣 的 是 它 的 搜索 阶段 。 它 有 潜力 发 据 那 些 对 代码 生成 器 的 实现 者 来 说 是 未 知 的 代 
码 序列 (尽管 代码 序列 是 否 由 于 难以 琢磨 而 需要 去 发 据 仍 是 一 个 有 待 争论 的 问题 )。Cattell 方 法 的 主要 缺 
点 是 : 在 某 种 程度 上 ， 它 生成 的 代码 序列 是 由 “选择 ”阶段 所 选 出 的 固定 子 树 模 板 的 宏 展开 而 得 到 的 。 
这 意味 着 那些 在 “选择 ”阶段 没 被 选中 的 特殊 子 树 将 不 被 “搜索 ”阶段 分 析 ， 而 因此 可 能 被 扩展 为 次 优 
的 代码 。 但 如 果 要 经 历 最 终 的 宇 孔 优化 阶段 ， 这 倒 也 不 是 一 个 同 题 1 


练习 


， 假 设 要 为 15.4.3 节 中 BB1 体 系 结构 生成 代码 ， 有 三 个 寄存 器 可 用 作 操 作 数 寄存 器 。 针 对 以 下 代码 片段 ， 
你 会 生成 何 种 代码 ? 假设 所 有 变量 是 静态 分 配 的 整数 或 整数 数组 。 


TE (A) + X(D+4): 
BB1 体 系 结构 的 后 继 是 BB2。BB2 包 含 BB1 的 所 有 指令 格式 。 它 同时 还 包括 -一 个 三 寄存 器 指令 ， 基 
格式 为 OP Regi, Reg2, Reg3， 其 中 Reg3 := Reg2 OP Regt。 针 对 上 述 相同 代码 片段 ， 你 会 产生 
什么 样 的 BB2 代 码 ? 

2， 在 某 些 机 器 体系 结构 中 ， 寄 存 器 分 配 很 复杂 ， 其 原因 是 指令 中 寄存 器 R 的 使 用 将 隐 式 地 涉及 另 一 个 
寄存 器 R'。 例 如 ， 涉 及 Ri 的 乘法 可 能 会 将 两 倍 ( 字 ) 长 度 的 乘积 存放 在 Ri 和 Ri 中 。 作 为 替代 ， 三 - 
地 址 指令 ，OP Reg, Reg, Reg， 通 过 要 求 k=j+1， 可 被 “紧缩 ”为 两 -地 址 格式 。 
针对 包含 隐 式 寄存 器 引用 的 机 器 ， 你 将 如 何 组 织 get_reg( ) WMH? 为 使 问题 具体 化 ， 假 设 你 的 
get reg() 使 用 BB3 体 系 结构 。 该 体系 结构 和 15.4.3 节 中 BB1 体 系 结构 基本 相同 ， 但 在 格式 为 OP X, 
Reg 的 指令 中 ，BB3 要 求 X 为 寄存 器 或 存储 地 址 ， 计 算 结 果 将 存放 在 Reg+ 而 不 是 Regi 中 。 
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用 你 的 例 程 为 练习 1 中 代码 片段 生成 BB3 代 码 。 


在 图 15-1 中 给 出 了 元 组 (+,A，B,，C) 的 代码 生成 器 。 推 广 此 代码 生成 器 以 包括 A 或 B 是 零 的 情况 。 进 一 


步 扩 展 你 的 代码 生成 器 以 包括 A、B 或 C 不 完全 相同 的 情况 。 


.在 15.4.1 节 里 ， 我 们 注意 到 所 涉及 的 计算 有 时 是 作为 地 址 计算 的 一 部 分 。 例 如 ，IBM 360/370 机 器 包 


括 相 加 一 个 寄存 器 对 、 再 加 上 常量 的 偏 移 以 构成 地 址 的 寻 址 模式 (两 个 寄存 器 中 一 个 作为 基 址 寄存 
器 ， 另 一 个 作为 变 址 寄存 器 )。 o 

给 出 为 A(I) 产 生 的 元 组 ， 其 中 A 和 I 是 通过 显示 表 寄 存 器 访问 的 局 部 变量 。 大 致 描述 代码 生成 器 将 如 
何 利用 基 址 加 变 址 的 寻 址 模式 ? 

有 时 守 址 模式 可 用 来 有 效 地 计算 普通 的 表达 式 。 例如， 考虑 A*B+C*D+1。 首 先 计算 A*B 和 C*D 并 将 
它们 的 值 放 入 寄存 器 R1 和 R2。 下 一 步 显然 是 将 R2 加 至 R1， 然 后 再 将 1 加 到 R1。 而 一 个 很 不 明显 但 
是 更 好 的 代码 序列 是 生成 LA R1,，1(R1,R2)。 这 条 指令 使 用 了 基 址 加 变 址 的 寻 址 模式 在 一 步 内 完成 
R1+R2+1， 并 将 结果 存 到 R1 (LA 是 取 地 址 指令 )。 如 何 扩展 + 的 代码 生成 器 以 生成 这 种 有 效 但 不 那 
么 明显 的 代码 序列 ? 


.考虑 以 下 代码 片段 : 


A(LJ) := A(,Jy/B(LJ); 
B(l-1,)41) := B(I,J+1)*A(l,J); 


下 面 是 为 上 述 代码 片段 可 能 生成 的 元 组 : 


(index,A,1,T1) 
(Index,T1,J,T2) 
(Index, A,l, T1) 
(Index, T1.J.T2) 
(Index,B,i, T3) 
(Index, T3,J, T4) 
(, T2T ‘Tat ,T5) 
(:=,T5,T21) 


(+,1,1, T6) 
(Index,B, T6,T7) 
(+,J,1,T8) | 
(Index, T7,T8,T9) 
(Index,B,1,T3) 
(*,J,1,T8) 
(Index,T3,T8,T10) 
(Index, A, T1) 
(Index, T1,J, T2) 
(*, 107, T21,T11) 
(:=,T11 T91) 


采用 15.4.2 节 里 的 值 - -编号 技术 来 识别 并 删除 该 元 组 序列 中 元 余 的 元 组 。 


， 我 们 经 常 需要 进行 运行 时 检查 以 验证 数组 、 指 针 和 约束 变量 的 使 用 是 否 正 确 。 如 果 “ 傻 瓜 式 ”生成 检 


查 代 码 ， 那 么 将 显著 地 损害 程序 的 大 小 和 速度 。 例 如 ， 假 设 我 们 有 格式 为 (TestRng, |, L, .U) 的 元 组 ， 
用 来 测试 是否 在 范围 L..U 内 。 该 元 组 可 用 于 检查 下 标 和 约束 变量 。 in RL «1«U, (TestRng, l, L, U) 
不 起 作用 ; 否则 将 引发 constraint 异 常 ( 可 能 导致 程序 运行 终止 )。 “RMR 代码 生成 器 会 在 每 个 下 
标 操作 前 生成 TestRng 元 组 。 在 练习 5 的 示例 中 ， 设 A 和 B 是 10*10 的 数组 ， 那么 产生 的 代码 如 下 : 


(Index, T+1,J,T2) 
{TestRng,l,1,10) 





(index,B, 1,73) 
(TestRng,J, 1,10) 
(Index, T3,9,T4) 
(/,T2T,T4T,T5) 
(:=,15,T2T) 


(+,1,1,76) 
(TestRng,T6,1,10) 
(Index,B,T6,T7) 
(4,J,1,T8) 
(TestRng.T8,1,10) 
(Index, T7, T8, T9) 
(TestRng,l, 1,10) 
(index,B,!. T3) 
(+,J,1,T8) 
(TestRng,T8,1,10) 
(Index,T3,T8,T10) 
(TestRng,l,1,10) 
(Index, A,L, T1) 
(TestRng,J, 1,10) 
(Index,T1,J,T2) 
(*,T10T, T2T,T11) 
(:=,T11,T9T) 


扩展 15.4.2 节 里 的 值 -编号 技术 来 识别 并 删除 元 余 的 TestRng 元 组 。 以 上 述 元 组 序列 为 例 说 明 你 
的 扩展 。 
7. 考虑 如 下 程序 片段 : 
A :=D/(B*C): 
D :=D-(B-C); 


A = A+C; 
C :=C+D; 


所 生成 的 元 组 如 下 : 
(*,B,C,T1) 
(/,0,T1,T2) 
(:=,T2,A) 
(—B,C,T3) 
(—,D,T3,T4) 
(:=,74,D) 


(+,A,C,T5) 
(-=,T5,A) 


(+,C,D,T6) 
(:=,T6,C) . 

假设 采用 15.4.3 节 里 BB1 体 系 结构 且 有 三 个 可 用 寄存 器 。 使 用 15.4.3 节 里 寄存 器 追踪 技术 ,为 上 
述 元 组 生成 BB1 代 码 。 重 做 代码 生成 ， 此 次 假定 有 4 个 可 用 寄存 器 。 

8， 重 做 练习 7， 此 次 在 第 二 和 第 三 条 语句 之 间 加 入 子 程序 P 的 调用 。 假 设 我 们 不 知道 有 关 P 使 用 寄存 器 
的 情况 ， 因 此 对 任何 内 容 需 要 保护 的 寄存 器 必须 在 调用 前 后 加 以 保存 和 恢复 。 尽 管 如 此 ， 如 果 在 调 
用 前 清除 寄存 器 关联 ， 那 么 就 有 可 能 避免 不 必要 的 保存 。 

9， 扩 展 15.4.3 节 里 寄存 器 追踪 技术 以 便 包括 格式 为 Move Reg1，Reg2 的 寄存 器 传送 指令 。 该 指令 拷贝 
Reg1 的 内 容 到 Reg2， 其 生成 开销 为 1 个 单位 。 使 用 你 扩展 的 算法 重 做 练习 7。 

10， 有 时 寄存 器 的 内 容 被 存储 到 内 存单 元 中 ， 而 紧 接 着 该 值 又 立刻 从 内 存单 元 中 被 再 次 装 入 寄存 器 中 。 
也 就 是 说 ,我们 可 以 看 到 以 下 的 代码 序列 : 


Store L,R1. 
Load L,R2 


其 中 R1 和 R2 不 必 相同 。 试 解释 使 用 “ 窥 孔 优化 ”将 如 何 优化 这 个 指令 对 ? 
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在 练习 4 中 ， 我 们 看 到 : 如 果 有 基 址 加 变 址 的 寻 址 模式 ， 那 么 将 两 个 寄存 器 和 一 个 常量 相 加 便 可 形 


成 一 个 单条 指令 。 说 明 如 何 使 用 罕 孔 优化 将 显 式 的 寄存 器 与 常量 的 加 法 替换 为 利用 基 址 加 变 址 的 寻 
址 模式 的 一 个 单条 指令 。 


宁 孔 优化 的 定义 经 常 在 简单 的 规则 中 使 用 模式 变量 来 描述 众多 的 相关 优化 。 因 此 ， 
Mult #2.o%R = Add %R,%R | 


将 表示 任意 寄存 器 与 2 的 相 乘 可 以 被 替换 为 那个 寄存 器 到 自身 的 加 法 。(%R 匹 配 任何 寄存 器 操作 数 。) 
大 致 描述 如 何 实现 能 匹配 包含 模式 变量 规则 的 短 孔 优化 右 。 


. 假定 我 们 正 翻 译 以 下 表达 式 : 


(A + (BxCrD)) / (E-F*G). 

为 该 表达 式 创 建 表达 式 树 (假定 使 用 Ada/CS 的 运算 符 优 先 级 ) ， 然 后 使 用 图 15-11 中 的 例 程 
register needs() 标 记 它 。 接 下 来 使 用 图 15-13 中 的 例 程 tree_node( ) 为 该 表达 式 生 成 代码 ， 假 
定 有 两 个 寄存 器 可 用 。 如 果 使 用 图 15-14 中 的 例 程 commute( ) ， 那 么 能 否 改进 所 生成 的 代码 ? 


. 证 明 register_needs ()、 tree_node( ) 和 commute( ) 的 执行 时 间 正 比 于 表达 式 树 中 操作 符 (BẸ 


运算 符 ) 的 个 数 。 


， 有 了 时， 如 果 利 用 某 些 操作 (如 + 和 *) 的 结合 性 ， 可 以 改进 为 表达 式 生成 的 代码 。 例 如 ， 如 果 使 用 


tree node() 翻译 下 面 的 表达 式 ， 则 需要 三 个 寄存 器 : 
(A+B) + (C+D) * ((E+F) / (G-H)) 
即使 采用 commute( ) ， 还 是 需要 三 个 寄存 器 。 然 而 ， 如 果 利 用 乘法 的 结合 性 从 右 到 左 计 算 乘 法 ， 
那么 仅 需 要 两 个 寄存 器 。( 首先 计 算 ((E+F) / (G-H))， 然 后 再 计算 (C+D)* ((E+F) / (G-H)), Bela 
计算 整个 表达 式 (A+B) * (C+D) * ((E+F) / (G-H)). ) 

编写 例 程 associate() ， 它 可 以 重 排 可 结合 的 操作 数 的 操作 数 以 改进 代码 质量 。( 提 示 : 允许 
可 结合 的 操作 符 拥有 多 于 两 个 的 操作 数 。) 


. 考虑 下 面 的 语句 序列 : 


A := B4C*D; 
B := A*(C*D); 
C := (C*D)«2; 
D := A+C; 


为 这 些 语句 创 建 表达 式 树 ， 然 后 使 用 tree_to_dag() ( 见 图 15-19) 将 表达 式 变换 为 dag。 接 下 来 
使 用 schedule() ( 见 图 15-23) 为 代码 的 生成 调度 dag， 并 使 用 allocate v regs() ( 见 图 15-25) 
来 分 配 虚 拟 寄 存 器 。 最 后 ， 将 虚拟 寄存 器 映射 到 真实 寄存 器 并 产生 计算 dag 的 代码 。 


， 重 做 练习 16， 此 次 假定 B 是 与 A 别名 的 引用 形 参 。 
， 例 程 schedule() 〈 见 图 15-23 ) 尝试 以 启发 式 方法 调度 左 操作 数 以 便 在 右 操作 数 后 使 用 它们 ， 并 随后 


改写 它们 。 如 图 15-29 所 示 ， 这 种 启发 式 方法 也 可 能 失效 。 大 致 描述 应 如 何 扩展 schedule( ) 以 正确 处 
理 共享 的 子 操作 数 。 你 的 扩展 能 正确 处 理 图 15-29 中 的 两 个 dag 吗 ? 

解释 应 如 何 扩展 15.7 节 中 的 代码 生成 算法 以 处 理 dag 中 出 现 的 可 交换 操作 符 ? 你 的 扩展 应 当 可 以 互 
换 可 交换 操作 符 的 左 、 右 操作 数 ， 前 提 条 件 是 那样 能 产生 更 好 代码 。 

编写 程序 实现 15.8 节 中 的 树 匹配 代码 生成 器 。 确 保 你 的 程序 不 会 阻塞 : HD. 如 果 表 达 式 树 的 一 部 分 
被 匹配 ， 而 其 余部 分 无 法 匹配 ， 你 的 程序 必须 能 撤销 先前 的 匹配 并 尝试 其 他 的 选择 直到 整个 表达 式 
树 被 匹配 。 你 可 以 假定 只 有 正确 的 表达 式 树 才 被 处 理 ; 因而 ， 一 定 存在 某 些 正 确 的 匹配 。 用 你 程序 
测试 图 15-37 中 的 示例 。 | 

练习 20 中 设计 的 代码 生成 器 确保 了 对 所 有 正确 的 表达 式 树 都 可 以 生成 某 个 正确 的 代码 序列 。 然而 ， 
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代码 生成 和 局 部 fMUX 00000000000 39b 


它 却 不 能 保证 所 生成 的 代码 是 最 优 的 或 质量 不 错 的 。 
假定 每 条 目标 机 指令 已 被 标记 有 代价 〈 其 大 小 或 速度 )。 推 广 练习 20 中 的 代码 生成 器 以 使 将 表达 
式 树 和 那些 能 带 来 最 小 代价 〈 代 码 最 小 或 速度 最 快 ) 指令 序列 的 指令 模式 相 匹配 。 
语句 A:= B+C+2 可 被 表示 为 如 下 的 前 级 代码 生成 IR: 
=+AD1++T+BDIT+CD22 | 


其 中 D1 和 D2 是 显示 表 寄存 器 。 将 图 15-38 中 的 Graham-Glanville 代 码 模板 与 这 个 序列 匹配 ， 并 显示 
所 产生 的 代码 。 给 出 所 有 匹配 的 模板 并 解释 每 一 次 选择 特定 模板 的 理由 。 
扩展 图 15-38 中 的 Graham-Glanville 代 码 模板 ， 使 之 包括 新 的 模板 来 描述 下 列 指令 : 

。 将 零 加 至 任何 操作 数 得 到 那个 操作 数 而 无 需 产 生 任 何 代码 。 | 

。 寄 存 器 与 2 相 乘 可 被 实现 为 那个 寄存 器 到 自身 的 加 法 。 

。 格 式 为 Add Op1, Op2, Op3 的 三 地 址 加 法 指令 。 其 定义 为 Op3 := Op1+Op2。 这 三 个 操作 数 可 以 全 部 

是 寄存 器 ， 或 其 中 之 一 是 直接 或 变 址 地 址 (其 他 两 个 操作 数 则 要 求 是 寄存 器 )。 
假定 我 们 设计 的 机 器 有 两 地 址 指令 。 它 将 有 N 个 操作 码 和 A 种 寻 址 模式 。 估 计 和 需要 多 少 Graham- 
Glanville 代 码 模板 来 描述 该 机 故 。 

大 多 数 真实 的 机 器 都 不 是 正 交 的 。 即 ， 并 非 所 有 寻 址 模式 组 合 都 能 用 于 所 有 操作 码 。 当 引入 

非 正 交 指令 上 时， 描述 机 器 所 需 的 Graham-Glanville 代 码 模 板 集 会 变 大 还 是 变 小 ? 你 能 否 给 出 可 能 需 
要 的 模板 数目 的 上 界 (以 N 和 A 表示 ) ? | 
考虑 语句 A := A+B+C， 其 中 A 和 C 长 型 整数 ，B 是 字 型 整数 。 采 用 15.8.2 节 里 属性 化 中 间 表 示 形 式 .， 
该 语句 可 以 被 表示 为 : | 


-= Index Obj(A,Long) Base(D1) + + Index Obj(A,Long) Base(D1) 
Index Obj(B,Word) Base(D2) Index Obj(C,Long) Base(D1) 


使 用 15.8.2 节 里 的 技术 和 属性 产生 式 为 该 语句 生成 代码 。 ， 
像 15.8.2 节 那样 创建 属性 代码 模板 以 定义 下 列 指令 : 
。 操 作 数 和 值 为 2* 的 常量 相 乘 ，1< N < Max， 可 被 实现 为 算术 左 移 N 位 。 
。 将 常量 C，1< C < Max， 加 至 除 RO 外 的 任何 寄存 器 ， 可 被 实现 为 LA C(R), R 
。 格 式 为 Mult Opnd, R; 的 乘法 指令 ， 要 求 为 偶数 且 Ri,t 未 被 占用 (因为 乘积 在 Ri 和 Ri 中 构成 ) 
使 用 15.8.3 节 里 的 符号 ， 无 条 件 分 支 指令 可 被 定义 如 下 : 
B Lab PC — Lab 
其 中 PC 是 程序 计数 器 。 使 用 这 个 定义 ， 解 释 察 孔 优化 器 如 何 发 现 从 一 个 无 条 件 分 支 跳 到 另 一 个 无 
条 件 分 支 的 情况 可 以 被 “倒塌 ”为 单个 的 无 条 件 分 支 。 
如 果 分 支 指令 中 的 地 址 不 是 绝对 地 址 而 是 相对 于 当前 PC 值 的 某 个 值 ， 这 种 优化 又 该 如 何 进行 呢 ? 
在 完成 一 次 罕 孔 优化 后 , 替换 原先 指令 的 优化 指令 可 被 重新 考虑 并 将 作为 另 一 次 窥 孔 优化 的 一 部 分 。 
给 出 可 在 这 种 级 联 的 罕 孔 优化 中 受益 的 例子 。 
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第 16 章 全 局 优化 


16.1 概述 一 一 目标 与 限制 


代码 优化 覆盖 了 众多 的 算法 和 启发 式 方法 ， 它 们 试图 改进 由 编译 器 生成 的 代码 。 我 们 已 知 有 许多 种 
优化 的 方法 。 其 中 一 些 优 化 方法 非常 简单 而 且 几 乎 被 所 有 的 产品 编译 器 所 采用 。 常 量 表达 式 折叠 和 无 用 
指令 删除 是 两 个 广泛 使 用 的 简单 优化 的 例子 。 在 指令 顺序 执行 的 单独 基本 块 中 我 们 应 用 了 局 部 优化 
(local optimization )。 由 于 局 部 优化 不 考虑 控制 流 ， 因 此 它们 较 容 易 实 现 且 常常 与 代码 生成 集成 在 一 起 。 
我 们 已 在 第 15 章 里 讨论 过 局 部 优化 。 

其 他 的 优化 方法 往往 过 于 复杂 而 只 在 特殊 的 优化 编译 器 (optimizing compiler) 中 才 使 用 。 穿 越 基 
本 块 的 程序 变量 到 寄存 器 的 指派 ， 是 一 个 相当 难 优化 的 例子 。 程 序 变量 有 很 多 而 寄存 器 却 很 少 ， 要 最 小 
化 总 体 装 和 人 /存储 开销 将 需要 考 虚 非常 多 的 可 能 的 指派 。 那 些 必 须 处 理 穿越 基本 块 的 控制 流 的 优化 ， 我 
们 称 之 为 全 局 优化 。 它 是 本 章 的 主题 。 

实践 中 ， 优 化 编译 器 很 少 生 成 真正 最 优 的 代码 。 其 原因 有 两 个 ， 第 一 ， 优 化 中 包含 了 那些 已 知 是 不 
可 判定 的 问题 。 而 不 可 判定 问题 就 是 那些 不 可 能 用 通用 算法 去 解决 的 问题 。 可 达 性 (reachability) 就 是 
这 样 的 一 个 问题 。 给 定 的 代码 片段 在 程序 执行 期 间 是否 可 达 是 不 可 判定 的 〈 见 练习 8 )。 可 达 性 能 影响 优 
化 行为 ， 因 为 代码 片段 如 果 不 可 达 ， 那 么 我 们 就 可 以 安全 地 删除 它 。 某 些 编译 器 特别 采用 了 不 可 达 的 简 
单 情况 (例如 ， 当 条 件 表达 式 为 常量 值 的 时 候 )， 但 是 ， 一 般 来 讲 ， 优 化 算法 假定 程序 中 的 所 有 代码 在 
执行 期 间 都 是 潜在 可 以 到 达 的 。 

即使 优化 问题 是 可 解 的 ， 其 解决 方案 也 可 能 非常 的 昂贵 。 例 如 ， 在 第 15 章 里 ， 我 们 注意 到 从 dag 生 
成 最 优 代 码 需要 共享 的 子 dag 数 目的 指数 级 时 间 。 通 常 ， 我 们 与 其 使 用 那些 已 知 的 非常 昂贵 的 优化 算法 ， 
还 不 如 使 用 能 产生 较 好 但 不 是 最 好 的 代码 的 快速 启发 式 方法 。 

将 优化 加 入 编译 器 中 ， 其 实 也 就 是 加 入 了 一 些 提高 生成 代码 质量 的 方法 。 衡 量 优化 的 准则 有 以 下 两 
条 : 安全 和 效益 。 施 行 优化 后 的 程序 可 能 不 会 和 原先 未 优化 的 程序 产生 完全 相同 的 结果 。 总 能 保证 产生 
完全 相同 结果 的 优化 是 安全 的 ; 而 那些 可 产生 不 同 结果 的 优化 则 是 不 安全 的 。 例 如 ， 一 种 常见 的 循环 优 
化 是 将 循环 中 已 知 为 不 变 的 (常量 ) 表达 式 提出 并 放置 到 循环 的 首部 。 其 想法 是 ， 仅 计算 一 次 该 表达 式 
并 将 其 值 存放 到 临时 变量 中 。 然 而 ， 该 表达 式 在 计算 时 可 能 会 引发 异常 。 除 非 我 们 知道 原 循 环 中 总 是 要 
计算 该 表达 式 ， 否 则 将 其 移出 循环 体 是 不 安全 的 。 

许多 优化 在 某 些 情况 下 是 不 安全 的 。 它 们 包括 : 

。 重 排 可 结合 操作 数 。 

。 移动 程序 中 表达 式 和 代码 序列 。 

。 循环 展开 与 迭代 执行 循环 不 同 ， 这 是 将 循环 扩展 为 循环 体 的 一 系列 拷贝 ， 但 这 样 做 可 能 会 超出 

存储 极限 )。 | 

尽管 一 个 好 的 优化 器 应 当 只 进行 安全 的 优化 (那些 可 提高 性 能 又 不 会 影响 结果 的 优化 )， 但 很 多 有 价 
值 的 优化 在 某 些 场合 中 却 是 不 安全 的 。 与 其 失去 有 潜在 价值 的 优化 ， 倒 不 如 让 一 些 编译 器 允许 用 户 来 做 
主 是 否 进 行 那些 不 安全 的 优化 。 编 译 时 警告 或 编译 器 文档 给 出 了 优化 在 哪些 情况 下 可 能 危及 程序 的 安全 。 

即使 一 种 优化 被 认为 是 安全 的 ， 其 最 终 的 程序 也 未 必 能 从 中 受益 。 在 某 些 场合 ， 这 种 优化 实际 上 反 
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而 降低 了 程序 性 能 。 循 环 不 变 式 的 移动 证 实 了 这 种 担心 。 即 便 我 们 知道 循环 不 变 式 的 计算 不 会 引发 异常 ， 
但 实际 情况 却 可 能 是 : 在 原来 的 循环 中 该 表达 式 从 未 被 计算 过 。 因 此 ， 在 那 种 情况 下 ， 外 提 循 环 不 变 式 
并 提前 计算 它 将 得 不 偿 失 。 | 

通常 ， 优 化 是 被 设计 用 来 改进 程序 执行 的 平均 性 能 ， 因 而 一 般 不 可 能 在 所 有 情况 下 均 使 程序 受益 。 
例如 ， 对 循环 和 过 程 调用 进行 优化 ， 我 们 常常 假定 循环 至 少 应 迭代 一 次 ， 而 过 程 至 少 也 要 被 调用 一 次 。 
在 那些 假定 条 件 不 满足 的 极 少数 的 情况 下 ， 做 相关 的 优化 将 是 徒劳 的 。 

除了 关心 安全 与 效益 外 ， 我 们 试图 去 优化 的 对 象 可 能 发 生变 化 ， 这 取决 于 用 户 的 需要 。 最 常见 的 是 
我 们 力图 去 改善 程序 的 速度 和 大 小 。 有 时 ， 程 序 的 成 本 (由 用 户 埋单 ) 或 系统 的 开销 (例如 ， 页 面 调度 
或 内 外 存 交换 ) 也 会 成 为 最 迫切 的 关注 对 象 。 | 

通常 ， 一 种 优化 行为 能 满足 所 有 合理 的 优化 标准 。 例 如 ， 删 除 无 用 指令 的 优化 ， 可 以 缩减 程序 代码 
大 小 ， 提 高 运行 速度 ， 并 减少 内 存 拥堵 。 然 而 ， 一 些 优化 在 改善 某 项 性 能 时 却 会 以 牺 竹 另 一 项 性 能 为 代 
价 。 例 如 ， 子 程序 调用 的 内 联展 开 提高 了 速度 却 导 致 程序 代码 大 小 的 增加 。 

尽管 我 们 是 单独 地 介绍 每 一 项 优化 ， 但 我 们 也 不 能 盲目 地 使 用 它们 或 者 没有 准备 好 就 要 开始 合并 使 
用 它们 。 此 外 ， 施 行 优化 的 顺序 也 很 重要 ， 因 为 优化 行为 之 间 可 能 互相 影响 。 例如， 常量 传播 (在 其 中 ， 
我 们 识别 出 变量 保存 的 值 为 常量 值 ) 可 帮助 我 们 识别 不 可 达 代 码 (通过 折 熏 条件 表 达 式 )。 一 旦 删除 不 
可 达 代 码 ， 就 可 以 传播 新 的 常量 值 (如 果 有 冲突 的 赋值 是 被 删除 代码 的 一 部 分 ) 。 

由 优化 引起 的 各 种 内 部 变化 使 得 在 运行 时 针对 优化 后 程序 的 诊断 调试 非常 混乱 。 例 如 ， 用 于 事后 分 
析 的 内 存 印 出 可 能 不 会 显示 正确 的 变量 值 ， 因为 有 时 候 变 量 的 值 是 保存 在 寄存 器 而 非 内 存 中 的 。 类 似 地 ， 
代码 移动 也 许 会 在 与 源 程序 列表 所 提示 位 置 相差 甚 远 的 某 个 地 方 引发 内 存 故 障 。 

很 自然 地 ， 人 们 可 能 只 想 优化 那些 正确 的 程序 ， 但 这 往往 是 一 厢 情 愿 的 。 通 常 ， 最 好 的 帮助 是 去 调 
试 那些 未 优化 的 程序 版 本 (这 常常 有 助 于 我 们 识别 所 有 那些 太 过 普通 的 情况 ， 而 就 在 其 中 ， 优 化 器 本 身 
可 能 会 做 不 安全 优化 并 引入 错误 )。 调 试 优化 代码 的 一 般 问 题 可 参见 文献 Hennessy 1982 和 Zellweger 
1983, 


16.1.1 理想 的 优化 编译 器 结构 
图 16-1 显 示 了 一 个 优化 编译 器 的 模型 。 这 个 理想 的 模型 帮助 我 们 将 各 种 优化 进行 分 类 : 


P 中 间 表 示 优 化 


“更 好 的 ” 
中 间 表 示 代 码 







源 程序 





中 间 表 示 代 码 






目标 机 器 代码 


图 16-1 PRABHU DLC Sa at 





会 局 优化 | 395 


* 源 语言 优化 

这 部 分 优化 在 语义 例 程 中 完成 ， 是 语言 特定 的 但 与 目标 机 器 无 关 。 
。 代 码 生成 优化 

这 部 分 优化 利用 目标 机 体系 结构 ， 但 基本 上 独立 于 源 语言 。 
。 中 间 表 示 优 化 


理想 情况 下 ， 这 部 分 优化 只 \ 依 堪 中 间 表 示 且 可 被 许多 用 于 不 同 源 语言 或 目标 机 的 编 尝 医 基于 。 
我 们 首先 回顾 -- 下 在 各 个 编译 器 阶段 完成 的 各 类 优化 。 
源 语言 优化 〈 在 语义 例 程 中 完成 ) 
只 要 有 可 能 ， 语 义 例 程 就 应 当 生 成 代码 ， 这 个 代码 可 以 利用 出 现在 正 被 翻译 的 语言 结构 中 的 特殊 情 
ie. Seb EE: 617 
« 利用 循环 和 数组 的 常量 边界 。 
* 禁止 为 不 可 达 的 代码 片段 生成 代码 。 
* 将 循环 体 展 开 为 等 价 的 顺序 代码 : 
for lin 1 .. 10 loop A(1,1) 
A(1,1) := 2l; "RA OA(2,2) 
end loop: ens 
。 压 缩 元 余 的 运行 时 检查 。 特 别 地 ， 常 量 的 循环 边界 允许 将 循环 下 标 处 理 为 约束 子 类 型 ， 这 样 就 可 
能 避免 相应 的 范围 或 下 标 检查 。 
下 面 的 优化 可 同样 在 语义 例 程 中 完成 : 
。 标 记 循 环 首部 和 出 口 以 利于 后 面 进行 的 流 分 析 。 
。 标 记 代 码 的 分 叉 与 回合 点 以 利于 确定 直接 前 驱 和 后 继 。 
。 标 准 化 (规范 化 ) 操作 数 格式 以 利于 公共 子 表达 式 的 识别 。( 例 如， 我 们 可 能 为 表达 式 A+B+C、 
A+C+B 和 C+A+B 生 成 相同 的 代码 。) 
语言 的 设计 对 所 生成 代码 的 质量 有 着 直接 和 主要 的 影响 。 良 好 设计 的 语言 特性 可 使 我 们 更 容易 地 
生成 好 的 代码 ; 而 糟糕 的 设计 则 会 带 来 糟糕 的 代码 。 可 增强 代码 质量 的 语言 结构 包括 : 
。 有 名 常量 (这样 ， 变 量 就 不 必 被 当 作 常量 使 用 ) 
。 赋 值 操作 (例如 C 语 言 中 的 A[i] += 1)。 宛 余 计 算 可 以 很 一 般 地 被 识别 出 来 。 
。Ccase 语 句 ， 它 能 比 等 价 的 if 语 名 产生 效果 更 好 的 代码 。 | 
。 受 保护 的 for loop 下 标 ， 它 可 以 被 存放 在 寄存 器 中 并 确保 被 限制 在 固定 范围 内 。 
。 受 限制 的 跳 转 和 goto， 它 们 使 流 分 析 更 容易 。 
那些 产生 糟糕 代码 或 禁止 各 种 优化 的 语言 特性 包括 : 
。 按 名 传 参 ， 它 被 实现 为 “不 可 见 ” 的 过 程 调用 ， 可 用 来 取代 按 值 传 参 或 引用 型 参数 。 
。 有 副作用 的 函数 ， 它 们 使 代码 删除 或 代码 移动 成 为 不 可 能 。 
。 别 名 的 创建 ， 其 中 通过 指针 或 引用 型 参数 访问 变量 ， 它 使 宛 余 表达 式 的 分 析 非 常 困 难 。 
。 异常 ， 它 往往 意 想不到 地 (以 不 可 见 的 方式 ) 使 程序 控制 转移 到 可 能 带 来 副作用 的 异常 处 理 程序 。 
Ada 语 言 不 允许 在 出 现 异常 后 恢复 程序 的 正常 运行 ;然而 ，PL/I 语 言 却 允 许 。 
代码 生成 优化 
我 们 在 第 15 章 中 详细 讨论 了 代码 生成 优化 。 在 代码 让 成 一 级 的 优化 往往 利用 了 特定 且 详 细 的 目标 机 
知识 。 由 代码 生成 器 执行 的 典型 优化 包括 : 
RARE RET. 
。 充 分 利用 指令 集 。 
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。 充 分 利用 硬件 寻 址 模式 。 

。 利 用 特殊 硬件 设计 (例如 ， 流 水 线 、 高 速 缓存 和 异步 功能 单元 )。 
中 间 表 示 优 化 

我 们 需要 识别 出 两 个 层次 的 中 间 表 示 (IR). 优化 : 局 部 优化 和 全 局 优化 。 正 如 第 15 章 所 描述 的 ， 我 
们 可 以 很 方便 地 将 一 个 程序 表示 为 顺序 代码 段 ( 称 为 基本 块 ) 的 图 形 。 基 本 块 之 间 的 控制 流 用 有 向 边 表 
Zu 程序 中 的 所 有 基本 块 被 链接 在 一 起 来 体现 控制 流 ， 它 们 共同 组 成 数据 流 图 (data flow graph). 

例如 ， 下 列 代码 片段 : 

if A = B then 


M — 


C: 

D: 
else 
E: 


li 
Q) 


end if; | 

A:-1; 
其 数据 流 图 如 图 16-2 所 示 。 

在 单个 基本 块 内 的 优化 称 为 局 部 优化 。 在 基本 块 之 间 的 优化 (涉及 控制 流 分 析 ) 称 为 全 局 优化 。 在 
下 面 的 程序 片段 中 : 


我 们 使 用 局 部 分 析 发 现 一 个 公共 子 表达 式 (Common Sub Expression，CSE)， 又 利用 金 局 分 析 发 现 另 外 
一 个 CSE。 | 





图 16-2 数据 流 图 示例 图 16-3 用 于 爹 局 CSE 优 化 的 数据 流 图 


局 部 优化 很 容易 进行 (因为 不 需要 流 分 析 ) 且 应 当 被 大 多 数 产品 质量 级 的 编译 器 所 采纳 。 我 们 在 讨 
论 代码 生成 时 包含 了 许多 局 部 优化 。 将 局 部 (基本 块 内 ) 分 析 与 代码 生成 集成 在 一 起 将 允许 我 们 改进 代 
码 质量 以 及 更 好 地 利用 与 机 器 相关 的 特性 ， 尤 其 是 寄存 器 。 在 这 一 章 里 ， 我 们 将 集中 讨论 全 局 以 优 化 。 
这 个 关注 点 反映 出 这 样 一 个 事实 ， 即 : 优化 编译 器 和 普通 编译 器 的 区 别 在 于 ， 前 者 要 例 行 地 进行 流 分 析 ， 
来 揭示 全 局 优化 ; 但 后 者 却 没 有 这 么 做 。 

空 越 基本 块 的 公共 子 表达 式 分 析 是 一 种 常见 的 全 局 优化 。 例 如 ， 对 于 图 16-3 中 的 流 图 ， 全 局 分 析 可 
以 确定 B+C 是 一 个 CSE。 : 

CSE 优 化 ,不论 是 局 部 的 还 是 全 局 的 ， 都 是 很 有 价值 的 。 例 如 ， 程 序 中 常用 的 数组 下 标 就 频繁 地 会 
导致 公共 子 表达 式 的 创建 。 

因为 程序 的 大 量 执行 时 间 往 往 花 在 循环 体 中 ， 所 以 循环 作为 有 用 全 局 优化 的 一 个 来 源 ， 是 特别 重要 的 。 

. 循环 不 变 式 可 以 移 到 循环 人口 且 只 计算 一 次 。 这 是 一 项 非常 有 用 的 优化 ， 但 如 果 我 们 不 能 确定 此 





表达 式 在 循环 中 是 否 一 定 会 计算 ， 那 么 此 优化 就 可 能 不 太 安全 。 在 下 面 程序 片段 中 : 
while J > | loop 

A(J) := 10/1; 

J := J42; 

end loop; 

可 能 出 现 | = 0 的 情况 。 如 果 10/| 被 移 到 循环 和 人口 处 ， 那 么 由 于 我 们 的 “优化 ”可 能 导致 “被 
零 除 ”的 错误 。 即 使 移出 的 操作 不 会 出 错 ， 仍 然 存在 着 “收益 ”的 问题 ， 因 为 如 果 循 环 执行 零 次 
的 话 ， 那 么 就 不 需要 计算 循环 体 中 的 表达 式 。 

.在 for loop 循环 中 ， 下 标 变量 J 有 连续 值 Jo、Jo+1、Jo+f2、…。 如 果 b 是 循环 不 变 式 ， 那 么 形式 

为 J*b 的 表达 式 有 连续 值 joxb、Jo*b+b、Jo*b+2b、.…。 也 就 是 说 ， 该 表达 式 的 值 在 每 个 循环 步 
后 变化 一 个 循环 常量 bp。 有 鉴于 此 ， 我 们 可 以 在 循环 结束 处 用 表达 式 的 值 与 b 的 相 加 来 删除 该 乘 
法 。 在 这 种 优化 里 ， 我 们 说 乘法 被 强度 剂 弱 为 通常 执行 较 快 的 加 法 。 


16.1.2 优化 展望 


全 局 优化 复杂 、 昂 贵 ， 有 时 还 是 不 安全 的 。 因 此 ， 很 重要 的 一 点 是 ， 我 们 通常 是 以 一 种 “聚焦 

的 方式 来 使 用 全 局 优化 。 某 些 优化 器 只 在 循环 上 施行 全 局 分 析 和 优化 ， 因 为 那里 往往 可 以 获得 最 大 的 

收益 。 现 代 程 序 设计 语言 鼓励 模块 化 ， 因 此 ， 降 低 子 程序 调用 开销 并 提高 其 效率 就 显得 十 分 重要 。 同 

FE, 仔细 分 析 在 施行 其 他 优化 时 调用 的 效果 也 很 重要 。 在 本 章 里 ， RANEREN ATETA, 
因为 优化 这 些 语言 结构 通常 都 会 产生 极 佳 的 回报 。 

许多 一 一 实际 上 是 大 多 数 一 一 程序 并 不 需要 优化 。 它 们 或 是 不 经 常 使 用 ， 或 是 不 经 优化 也 能 满足 要 

求 。 但 也 存在 至 关 重要 的 程序 ， 它 们 是 需要 优化 的 对 象 。 性 能 剖析 程序 有 助 于 我 们 分 析 程 序 在 运行 时 的 

行为 并 识别 那些 频繁 执行 的 子 程序 和 代码 序列 (通常 是 循环 )。 这 些 信息 可 以 让 优化 器 将 其 努力 集中 于 
AREJEE E, TRER REIPAS. 

令 人 惊讶 的 是 ， 对 于 那些 最 关键 的 程序 来 说 ， 光 有 优化 是 不 够 的 。 优 化 可 以 改进 算法 的 翻译 ， 

但 它 却 不 能 将 一 个 糟糕 的 算法 替换 为 一 个 更 好 的 算法 。 好 的 优化 器 可 将 性 能 提高 一 个 常量 比率 ,如 ， 


可 能 减少 程序 代码 大 小 或 执行 时 间 达 20%~50%。 而 一 个 经 过 改进 的 算法 却 可 以 将 一 个 线性 算法 改 


变 成 对 数 级 算法 或 将 一 个 n? 算 法 改变 成 n log NB. 因此, 再 多 的 优化 也 不 能 替代 “聪明 ”的 算法 ， 
而 只 能 在 它们 被 精心 选择 和 实现 后 做 “最 后 的 增色 。 


16.2 优化 子 程序 调用 


现代 程序 设计 语言 强调 模块 化 。 庞 大 的 主 程序 被 那些 清晰 定义 的 子 程序 所 替代 。 不 幸 的 是 ， 许 多 编 
译 器 (或 机 器 体系 结构 ) 使 子 程序 的 调用 代价 昂贵 。 在 具有 块 结构 的 语言 中 ， 调 用 涉及 引用 环境 中 的 改 
变 、 局 部 数据 分 配 和 参数 值 的 传递 。 总 之 ， 现 代 的 块 结构 的 语言 背负 着 不 应 有 的 低 效率 的 名 声 。 在 本 市 
里 ,我 们 将 研究 优化 子 程序 调用 的 方法 。 通 过 谨慎 处 理 ， 所 获得 的 代码 质量 可 以 和 那些 无 结构 的 语言 
序 的 代码 质量 不 相 上 下 。 


16.2.1 子 程 序 调用 的 内 联展 开 


在 第 13 章 里 ， 我 们 讨论 了 将 子 程序 翻译 为 封闭 子 例 程 (closed subroutine) 的 技术 。 在 封闭 子 例 程 
的 情况 下 ， 调 用 点 与 返回 点 往往 位 于 有 着 显著 不 同 的 代码 体 中 。 一 种 有 时 较 有 吸引 力 的 方法 是 将 子 程序 
翻译 为 开放 子 例 程 (open subroutine)， 即 在 调用 点 内 联展 开 (expanded inline) 过 程 体 。 这 有 点 类 似 于 
宏 的 展开 ， 尽 管 简单 的 宏 展开 由 于 名 字 作 用 域 的 原因 并 不 适合 于 像 Pascal 和 Ada 那 样 的 结构 化 语言 。 茶 
些 语言 (例如 Ada 和 C++) 允许 程序 员 建 议 或 指定 哪些 子 程序 可 以 用 作 内 联展 开 。 
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子 程序 调用 的 内 联展 开 节 省 了 大 量 与 调用 相关 的 开销 (保存 寄存 器 、 维 护 显示 表 、 压 和 人 活动 记录 ， 
等 等 )。 事 实 上 ， 此 时 施行 其 他 优化 也 是 可 能 的 ， 因 为 调用 中 使 用 的 实 参 在 子 程序 体 中 变 得 可 见 了 。 特 
别 是 在 实 参 为 字面 值 的 时 候 ， 可 能 有 (常量 ) 折 私 和 删除 不 可 达 代码 的 机 会 。 已 有 人 提出 各 种 预先 评 信 
由 内 联展 开 所 带 来 的 节省 的 方法 (Ball 1979). 

在 讨论 内 联展 开 时 , 我 们 提 三 个 问题 如 何 选择 那些 最 值得 做 内 联展 开 的 调用 ? 谁 (用 户 或 编译 器 ) 
来 做 这 个 选择 ? 以 及 如 何 正 确 地 进行 内 联展 开 ? 

很 明显 ， 内 联展 开 很 大 程度 上 是 一 种 空间 换 时 间 的 权衡 ， 因 为 调用 的 展开 几乎 总 是 比 封闭 子 例 程 调 
用 占用 更 多 的 空间 。 此 规律 的 一 个 明显 但 并 不 常见 的 例外 是 ， 子 程序 仅 被 调用 一 次 。 在 这 种 情况 下 ， 内 
联展 开 将 同时 降低 程序 的 时 空 需求 。 然 而 ， 一 个 递归 子 程序 的 内 联展 开 ， 如 果 每 次 傣 套 调用 都 是 自身 展 
开 的 话 ， 将 可 能 导致 灾难 性 的 后 果 。 

为 了 判定 子 程序 是 否 适 合 做 内 联展 开 ， 需 要 了 解 有 关子 程序 之 间 相 互 调用 的 信息 。 这 些 信 息 可 以 很 
方便 地 表示 在 调用 图 (call graph) 里 。 在 调用 图 里 ， 每 个 结 点 代表 一 个 子 程序 或 主 程序 。 如 果 P 调 用 Q， 
那么 从 结 点 P 到 结 点 Q 有 一 条 边 。 对 于 形式 过 程 参数 的 调用 ， 将 创建 一 条 边 指向 每 个 可 能 与 形式 过 程 相 
绑 定 的 子 程序 。 | 

考虑 图 16-4 中 的 调用 图 。 主 程序 包含 对 A、B 和 C 的 调用 。 
从 A 可 以 调用 C 或 D。 从 B 可 以 调用 C。 

每 个 结 点 的 入 边 的 数目 表示 有 多 少子 程序 可 以 调用 它 。 图 
中 的 路 径 表 示 可 能 的 调用 序列 。 递 归 子 程序 很 容易 识别 一 一 在 
调用 图 中 必定 存在 从 递归 例 程 到 其 自身 的 循环 路 径 。 类 似 地 ， 
只 有 一 条 边 指向 的 例 程 是 立即 内 联展 开 的 候选 者 〈 如 果 调 用 它 
的 那个 惟一 例 程 仅 调用 它 一 次 的 话 )。 

除了 调用 图 以 外 ， 大 小 和 调用 频率 等 信息 也 能 指导 内 联展 
开 的 选择 。 小 型 子 程序 是 内 联展 开 较 好 的 候选 ， 特 别 是 那些 过 
程 体 大 小 同 普通 调用 所 需 代码 大 体 相 当 的 子 程序 。 这 在 直觉 上 
很 简单 一 小 型 子 程序 若 被 实现 为 封闭 子 程序 ， 那 么 它们 花 在 调用 上 的 时 间 会 比 它们 完成 预期 功能 的 时 
WA. 事实 上 ， 那 些 简单 的 预定 义 的 库 子 程序 (如 abs 或 round)， 通 常 都 是 以 精确 的 内 联展 开 来 实现 
的 ， 否 则 它们 的 执行 速度 将 被 调用 /返回 开销 所 吞没 。 

如 果 使 用 一 个 执行 性 能 剖析 器 ， 则 可 以 确定 那些 频繁 被 调用 的 子 程序 。 如 果 没 有 性 能 剖析 器 ， 那 些 
循环 中 出 现 的 调用 可 能 被 想当然 地 认为 是 频繁 执行 的 。 频 繁 调用 的 子 程序 ， 即 使 它们 的 过 程 体 不 是 特别 
小 ， 它 们 也 还 是 可 以 作为 内 联展 开 的 候选 者 ， 因 为 不 执行 那些 显 式 的 调用 和 返回 序列 而 节省 的 时 间 将 随 
着 “调用 ”次 数 的 增加 而 成 倍增 加 。 

可 以 用 前 面 介绍 的 标准 来 选择 调用 ， 这 些 调 用 是 内 联展 开 的 候选 对 象 。Ada 语 言 包含 一 个 形式 为 
pragma Inline(Name,:--) 的 语言 指示 ， 它 允许 用 户 选择 适合 做 内 联展 开 的 子 程序 。C++ 允 许 函 数 被 声明 
为 inline 和 函数 。 但 如 果 相应 的 函数 不 适合 做 内 联展 开 ， 则 那些 由 Inline 语 言 指示 或 lnline 关 键 字 所 提供 
的 建议 将 被 忽略 。 因此， 递归 子 程序 通常 不 能 做 内 联展 开 ， 若 它们 可 以 的 话 ， 则 展开 的 深度 将 会 受到 限 
制 。( 受 限制 的 递归 子 程序 的 内 联展 开 允 许 像 Factorial(5) 那 样 的 调用 被 全 部 展开 ， 然 后 又 收拢 起 来 。) 

一 日 确定 了 内 联展 开 的 候选 对 象 ， 我 们 就 必须 决定 如 何 实现 该 内 联展 开 。 乍 一 看 ， 用 类 似 宏 展开 的 
方法 可 能 较 合适 ， 但 其 实 并 非 如 此 。 这 个 问题 在 于 ， 无 论 子 程序 调用 被 实现 为 普通 的 封闭 子 例 程 调用 还 
是 内 联展 开 ， 它 的 调用 效果 必须 是 相同 的 。 而 宏 展开 由 于 作用 域 规则 的 原因 ， 不 能 像 普通 的 调用 那样 总 
是 具有 相同 的 语义 。 考 虑 : 





图 16-4 调用 图 
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declare 
A : Integer; 
procedure P(! : Integer) is 
J : constant Integer := |*2:; 
in 
Write(A,J); 
d P; 


如 果 用 宏 展 开 P 的 调用 ， 那 么 将 输出 布尔 值 ， 而 普通 的 调用 则 输出 一 个 整数 值 。 

与 宏 展 开 子 程序 调用 为 一 段 源 程序 不 同 ， 我 们 将 子 程序 翻译 为 IR 形 式 
Diana 的 树 ”。 非 局 部 引用 将 被 全 部 解析 ， 以 保持 作用 域 规则 ; 局 部 声明 和 参数 的 引用 则 被 特别 标记 。 当 
发 生 内 联展 开 时 ， 过 程 体 上 述 的 翻译 形式 将 被 替换 。 局 部 声明 被 处 理 为 程序 块 中 的 声明 ; 它们 将 扩展 调 
用 者 的 活动 记录 。 子 程序 中 所 有 的 局 部 引用 变 为 调用 者 活动 记录 空间 内 的 引用 。 这 意味 着 内 联 调用 可 以 
避免 AR 压 人 和 显示 表 维 护 的 开销 。 | 

调用 的 实 参 将 替换 子 程序 中 的 形 参 ， 替 换 过 程 中 需要 保持 参数 传递 的 语义 。 特 别 地 ， 在 子 程序 体 执 
行 前 ， 每 个 参数 仅 被 计算 一 次 。 因 而 ， 即 使 J 在 子 程序 体 中 可 以 被 改变 ，A(J) 的 一 个 参数 也 总 是 表示 相 
同 的 数组 元 素 。 非 常量 的 标量 参数 必须 被 拷贝 到 临时 变量 ; 非 标量 的 参数 通常 以 引用 方式 传递 ， 它 们 一 
且 被 计算 完毕 ， 即 被 替换 。 | | 

遵照 这 些 规则 ， 可 将 前 面 的 例子 翻译 如 下 CS ik ee EIR — BL A EAR): 


B1: declare 





declare 
J :constant Integer := 1*2; 


beg Tio(B1.AJ). —~ 引用 正确 的 A 
end; 
end; 
end B1; 
16.2.2 优化 对 封闭 子 例 程 的 调用 


在 汇编 语言 程序 中 ， 常 常 通过 一 条 能 够 保存 返回 地 址 并 跳 转 到 子 例 程 开始 地 址 的 指令 来 实现 对 封闭 
子 例 程 的 调用 。 在 结构 化 语言 中 ， 调 用 通常 要 昂贵 得 多 ， 因 为 必须 要 维持 活动 记录 、 更 新 显示 表 、 传 递 
参数 以 及 保存 和 恢复 寄存 器 等 。 在 本 节 里 ， 我 们 研究 在 像 Ada 和 Pascal 那 样 的 块 结构 语言 中 减少 封闭 子 
例 程 调用 开销 的 方法 。 

一 种 常常 很 有 价值 的 优化 基于 以 下 的 观察 : 非 递归 子 程序 的 活动 记录 可 以 采用 静态 分 配 ， 从 而 在 这 
些 子 程序 被 调用 时 避免 做 任何 AR 或 显示 表 维 护 工 作 。 . | 

在 16.2.1 节 里 ， 我 们 介绍 了 调用 图 的 概念 ， 它 可 以 表示 可 能 的 调用 序列 。 调 用 图 中 出 现在 循环 路 径 
上 的 任何 子 程序 都 是 潜在 递归 的 且 必 须 在 运行 栈 中 压 人 或 弹出 它们 的 活动 记录 。 调 用 图 也 表示 了 将 AR 
映射 到 内 存 中 的 约束 条 件 。 如 果 存 在 从 子 程序 P 到 子 程序 Q 的 路 径 ， 那 么 P 可 能 会 (直接 或 间接 地 ) 调用 
Q 日 因此 它们 的 AR 必须 是 不 相交 的 。 然 而 ， 如 果 P 到 Q (或 Q 到 P) 没有 路 径 ， 则 这 两 个 子 程序 的 AR 可 
以 覆盖 。 


或 许 是 元 组 或 许 是 “类 似 
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为 给 活动 记录 分 配 静 态 地 址 , 我 们 首先 从 调用 图 确认 那些 递归 子 程序 , 然后 再 从 调用 图 中 删 去 它们 。 
(必须 在 运行 栈 上 分 配 递归 子 程序 的 AR。) 在 删除 递归 子 程序 后 ， 我 们 对 调用 图 进行 拓扑 排序 。 拓 扑 排 
序 是 图 中 结 点 的 一 种 简单 列表 ， 如 果 存 在 P 到 Q 的 边 ， 那 么 P 在 列表 中 要 先 于 Q。( 只 要 图 中 没有 循环 ， 
就 总 有 可 能 得 到 这 样 的 列表 。) 

重新 考虑 图 16-4 中 调用 图 的 例子 。 对 此 图 来 说 ，(Main,A,B,C,D) 和 (Main,B,A,C,D) 都 是 它 的 拓扑 排 
序 。 在 大 多 数 关于 数据 结构 的 书 (如 Knuth 1968) 中 都 可 以 找到 拓扑 排序 的 算法 。 事 实 上 ， 如 果 一 种 语 
言 要 求 子 程序 在 其 被 调用 前 要 被 完全 声明 ， 那 么 声明 次 序 的 逆序 即 为 这 些 子 程序 的 拓扑 排序 。 

使 用 调用 图 结 点 的 拓扑 排序 ， 我 们 能 够 形式 化 一 个 简单 的 用 于 活动 记录 分 配 的 规则 。 它 类 似 于 在 过 
程 一 级 的 AR 中 为 块 分 配 空间 的 方法 : 

(1) 根据 一 个 拓扑 排序 来 处 理 结 点 ( 即 子 程序 )， 这 样 ， 一 个 子 程序 可 先 于 它 调用 的 任何 子 程序 而 被 
处 理 。 

(2) 在 分 配 完 子 程序 的 直接 前 驱 所 需 的 最 大 空间 后 立即 分 配 该 子 程序 所 需 空间 。 

例如 ， 使 用 图 16-4 的 调用 图 ， 我 们 首先 处 理 Main。 接 下 
来 ， 将 分 配 A 和 B 的 活动 记录 ， 然 后 再 分 配 C 和 D 的 活动 记录 。 
(静态 ) 分 配 活动 记录 的 结果 如 图 16-5 所 示 。 

我 们 可 以 很 容易 检验 该 分 配 是 正确 的 。 也 就 是 说 ， 两 个 共 
享 空间 的 子 程序 不 能 同时 处 于 活跃 状态 。 同 样 ， 每 个 子 程序 被 
分 配 在 最 小 可 能 的 地 址 上 ， 假 定 所 有 调用 序列 均 是 可 能 的 。 如 
同 在 过 程 一 级 为 块 分 配 空间 一 样 ， 我 们 为 活动 记录 静态 分 配 的 
具 间 有 时 会 比 需要 的 大 一 些 ， 这 是 因为 我 们 将 为 所 有 可 能 的 调 
用 序列 (其 中 包括 那些 可 能 从 不 发 生 的 调用 ) 预先 分 配 空间 。 

动态 数组 和 以 往 一 样 被 处 理 并 在 运行 栈 顶 被 分 配 空间 。 
有 必要 在 每 个 子 程序 中 保存 stack_top 的 值 ， 以 便 可 以 正确 
地 分 配 与 释放 动态 数组 和 递归 子 程序 Ce fr E) 所 需 的 空间 。 

如 果 非 递归 子 程序 已 静态 分 配 了 活动 记录 ， 其 参数 传递 也 将 简化 。 在 参数 被 计算 后 ， 它 们 可 被 直接 
让 到 被 调 者 的 AR 中 。 然 而 ， 当 函数 出 现在 调用 的 参数 列表 (Mán, F(ab Gx) H, HRANA T 
同 。 我 们 不 希望 F 和 G 完 全 相互 覆盖 ， 因 为 G 的 执行 可 能 破坏 那些 已 被 计算 并 保存 在 F 活 动 记录 中 的 参数 。 
另 一 方面 ，F 和 G 也 不 需要 完全 不 重合， 因为 在 调用 F 前 ，G 已 执行 完成 。 

该 问题 的 解决 方案 是 : 每 个 子 程序 在 调用 图 中 包括 两 个 结 点 。 一 个 结 点 表示 存放 子 程序 参数 和 控制 
信息 的 那 部 分 活动 记录 ; 另 一 个 结 点 表示 存放 子 程序 局 部 变量 的 那 部 分 活动 记录 。 如 果 P 调 用 Q， 那 各 
我 们 建立 从 P 的 两 个 结 点 到 Q 的 两 个 结 点 的 边 ， 它 表示 P 的 空间 分 配 ， 包 括 参 数 和 局 部 变量 在 内 ， 都 必须 
先 于 Q 的 空间 分 配 。 至 于 像 Fla,b,c,G(x),…) 的 调用 ， 我 们 建立 从 F 的 参数 结 点 到 G 的 两 个 结 点 的 边 ， 强 
制 F 的 参数 空间 和 G 的 空间 分 离 。 这 种 方法 同样 适用 于 诸如 F(a,b,c, F(X,y,z,…),…) 的 部 分 递归 调用 。 此 
时 ， 可 以 在 运行 栈 上 分 配 F 的 参数 空间 ， 或 者 在 不 同 的 区 域 集中 放置 F 的 参数 并 仅 在 调用 前 将 它们 找 由 到 
相关 的 位 置 上 。F 的 局 部 变量 空间 可 以 采用 静态 分 配 ， 因 为 (这 个 调用 里 ) 并 没有 真正 的 递归 。 

汇编 语言 程序 经 常用 寄存 器 而 非 存储 位 置 来 传递 参数 ， 这 也 是 一 种 很 有 价值 的 优化 。 通 常 ， 参 数 会 
法 频 繁 地 引用 ， 因 此 将 这 些 使 用 频繁 的 值 指派 到 寄存 器 中 是 一 个 好 主意 。 标 量 值 参 和 引用 参数 的 地 址 可 
以 被 有 效 地 指派 到 寄存 器 中 。 对 于 这 类 参数 ， 调 用 者 只 是 简单 地 将 实 参 装 入 合适 的 寄存 器 中 ， 然 后 将 控 
制 转 交 给 被 调 者 ， 后 者 无 需 更 多 的 努力 就 可 以 方便 地 访问 这 些 参数 。 那 些 不 能 用 寄存 器 传递 的 参数 《下 
标量 值 参 ) 将 通过 运行 栈 传递 或 直接 被 拷贝 到 被 调 者 的 活动 记录 中 。 

但 是 到 底 用 哪些 寄存 器 来 传递 参数 呢 ? 通常 ， 编 译 器 预先 分 配 少量 寄存 器 用 作 参 数 传递 。 调 用 的 前 
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几 个 参数 将 传 至 所 分 配 的 寄存 器 中 ; 而 其 他 的 参数 ， 如 果 有 的 话 ， 将 通过 运行 栈 传递 或 直接 被 拷贝 到 被 
调 者 的 活动 记录 中 。 

这 种 方法 简单 但 不 灵活 。 如 果 我 们 分 配 更 多 的 寄存 器 用 于 参数 传递 ， 它 们 将 不 能 另 作 它 用 。 如 果 我 
们 分 配 用 作 参 数 传递 的 寄存 器 非常 少 ， 那 么 拥有 许多 参数 的 调用 将 因此 “ 遭 殊 *"。 此 外 ， 为 调用 生成 代 
码 时 将 在 寄存 器 使 用 方面 存在 不 易 察觉 的 冲突 。 考 虑 ; 

procedure P(A,B : Integer) is 

begin 


Qn A); 
end P; 


在 开始 Q 的 调用 时 ， 参 数 寄存 器 到 底 包 含 P 的 参数 还 是 包含 Q 的 参数 呢 ? 如 果 我 们 考虑 不 仔细 ， 就 会 在 所 
有 P 的 参数 引用 完成 之 前 装 入 Q 的 参数 。 

解决 办 法 之 一 是 : 在 Q 的 调用 前 保存 P 的 参数 ， 并 在 计算 Q 的 参数 〈 并 装 人 寄存 器 ) 时 通过 保存 区 
引用 P 的 参数 。 这 种 方法 可 行 ， 但 它 会 增加 调用 相关 的 寄存 器 保存 /恢复 开销 。 另 一 种 办 法 是 : 按 调 用 者 
和 被 调 者 使 用 的 寄存 器 不 重 又 的 方式 将 参数 指派 到 寄存 器 。 但 这 涉及 到 更 多 的 最 小 化 寄存 器 保存 与 恢复 
的 一 般 性 问题 ， 我 们 将 稍 后 讨论 它们 。 

我 们 已 经 考虑 了 如 何 降低 活动 记录 与 显示 表 的 维护 以 及 参数 传递 的 开销 。 最 后 需 考虑 的 是 寄存 器 的 
保存 与 恢复 的 开销 问题 。 在 某 些 情况 下 ， 此 开销 是 不 可 避免 的 。 尤 其 是 ， 如 果 我 们 只 有 很 少 的 寄存 器 ， 
或 者 如 果 寄 存 器 负荷 很 大 ， 那 么 保存 与 恢复 寄存 器 将 不 可 避免 。 在 这 些 情 况 下 ， 我 们 所 能 做 的 就 是 使 保 
存 与 恢复 的 开销 尽 可 能 低 。 这 可 能 涉及 到 寄存 器 到 保存 区 的 块 传送 。 一 些 RISC 体 系 结构 将 自动 地 分 配 与 
释放 某 个 寄存 器 集合 〈 或 宣 口 ) 作为 子 例 程 调用 的 一 部 分 。 其 实 ， 同 局 部 变量 一 样 ， 寄 存 器 也 有 相应 的 
“活动 记录 ”。 

如 果 可 用 寄存 器 数目 比 一 个 典型 的 子 程序 所 需要 的 还 多 ， 我 们 可 以 通过 细致 的 寄存 器 分 配 来 降低 寄 
存 器 保存 与 恢复 的 开销 。 这 种 想法 很 简单 。 如 果 过 程 P 能 够 调用 过 程 Q， 我 们 试图 在 分 配 寄存 器 时 使 P 的 
寄存 器 和 Q 的 寄存 器 不 相交 。 如 果 可 以 这 么 做 ， 那 么 从 P 中 调用 Q 时 ， 就 不 需要 做 保存 与 恢复 的 工作 了 。 

为 减少 保存 /恢复 的 开销 ， 我 们 用 每 一 个 子 程序 和 主 程序 所 需 的 临时 寄存 器 数 来 标记 它们 。 我 们 在 
分 配 真 实 寄存 器 之 前 做 这 项 工作 。 就 像 活 动 记录 优化 那样 ， 我 们 将 以 拓扑 序 遍 历程 序 的 调用 图 来 决定 如 
何 将 临时 寄存 器 映射 到 真实 寄存 器 。 这 分 两 步 来 做 。 首 先 ， 根 据 可 能 的 调用 路 径 ， 禾 盖 一 些 临 时 寄存 器 。 
如 果 P 与 Q 之 间 不 存在 直接 或 间接 调用 关系 ， 那 么 它们 可 以 共享 相同 的 临时 寄存 器 。 这 与 我 们 早 前 讨论 
的 活动 记录 覆盖 非常 类 似 。 

Ex ME 
要 多 ， 可 以 将 同一 个 真实 寄存 器 分 配给 多 个 临时 寄存 器 ， 
此 时 对 于 某 些 调用 可 能 要 强制 生成 保存 /恢复 代码 。 

作为 示例 ， 考 虑 图 16-6， 其 中 每 一 个 结 点 用 它 所 需 
的 临时 寄存 器 数 来 标记 。 整 个 程序 需要 12 个 临时 寄存 器 ， 
但 如 果 考 虑 调用 序列 ， 则 所 需 寄存 器 数 可 减少 到 9 个 。 
特别 地 ， 我 们 可 以 将 寄存 器 1 到 4 分 配给 Main; 5 到 6 分 
配给 B，5、6 和 7 分 配给 A，8 分 配给 C，8 和 9 分 配给 D。 

如 果 有 9 个 寄存 器 ， 相 关 工 作 可 以 师 利 完成 ， 根 本 
不 需要 进行 寄存 器 保存 和 恢复 。 如 果 寄 存 器 数 少 于 9 个 ， 
则 需要 一 些 保存 和 恢复 的 工作 。 例 如 ， 假 定 我 们 有 8 个 
可 分 配 的 寄存 器 。 BA, 我 们 可 将 寄存 器 1 重新 分 配给 D。 A166 标记 所 需 寄 存 器 数目 的 调用 图 
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我 们 知道 ， 寄 存 器 的 保存 和 恢复 工作 既 可 以 由 调用 者 也 可 以 由 被 调 者 来 完成 ， 如 果 让 调用 者 来 完成 此 项 
工作 , 我 们 将 保存 和 恢复 那些 被 调 者 可 能 直接 或 间接 使 用 的 、 但 当前 却 由 调用 者 占用 着 的 寄存 器 。 因 此 ， 
在 此 例 中 ， 从 Main 中 调用 A 将 保存 和 恢复 寄存 器 1， 因 为 A 可 能 调用 D， 而 D 使 用 寄存 器 1。 

此 外 ， 如 果 被 调 者 将 用 到 的 寄存 器 可 由 调用 者 直接 或 间接 地 使 用 ， 可 以 让 被 调 者 保存 和 恢复 这 些 寄 
存 器 。 采 用 这 种 方法 ，D 将 保存 和 恢复 寄存 器 1 ， 因 为 它 被 Main 使 用 。 如 果 我 们 让 被 调 者 做 保存 和 恢复 
的 工作 ， 那 么 代码 将 缩小 不 少 ， 这 是 因为 每 个 子 程序 仅 需要 一 个 保存 /恢复 序列 。 

如 何 处 理 递归 子 程序 呢 ? 如 果 我 们 让 被 调 者 做 寄存 器 的 保存 和 恢复 ， 那 么 无 论 分 配 了 什么 寄存 器 都 
无 关 紧 要 ， 因 为 保存 和 恢复 工作 将 不 可 避免 。 如 果 由 调用 者 来 做 的 话 ， 那 么 当 调用 者 不 在 调用 图 上 的 任 
何 环 中 时 ， 子 程序 可 以 被 分 配 到 与 环 中 它 的 最 初 的 调用 者 不 重合 的 寄存 器 。 这 样 ， 当 子 程序 直接 或 间接 
调用 自身 时 ， 保存 和 恢复 工作 只 是 为 这 些 递 归 调 用 做 的 。 

将 参数 和 局 部 变量 指派 到 寄存 器 中 可 以 提高 代码 的 质量 。 通 过 精心 设计 ， 还 可 以 减少 保存 /恢复 的 
开销 。 尽 管 如 此 ， 仍 然 存 在 不 易 觉 察 的 危险 。 指 派 到 寄存 器 中 的 一 个 变量 可 被 另 一 个 子 程序 非 局 部 地 访 
问 到 。 例 如 ， 我 们 有 : i 

procedure P(A : Integer) is 

procedure Q is 
begin 
 Write(A); 
end Q; 

end P; | 

假定 A 被 指派 到 寄存 器 。 现 在， 根据 寄存 器 被 分 配 以 及 Q 被 调用 (可 能 是 间接 调用 ) 的 情况 ， 当 在 
Q 中 引用 A 时 ，A 的 值 有 可 能 不 在 寄存 器 中 。 通 过 使 用 调用 图 来 判定 图 中 从 P 到 QQ 的 路 径 上 A 的 寄存 器 是 否 
已 被 重新 指派 ， 我 们 可 以 决定 是 否 将 A 另存 它 处 。 假 设 是 这 样 ， 我 们 如 何 取 得 A 的 正确 值 呢 ?简单 的 方 
法 是 将 一 个 存储 位 置 连同 寄存 器 一 起 分 配给 A。 在 P 中 ， 通 过 它 的 寄存 器 来 引用 A; 在 P 外 ， 通 过 它 的 存 
fii. RS UHA. 

使 用 这 种 方法 ， 无 论 何 时 在 P 中 发 生 调用 ，A 的 值 必须 被 保存 在 相应 的 存储 单元 〈 若 调用 过 程 中 引 
用 A)。 我 们 的 目标 是 减少 调用 /保存 开销 ， 为 此 ， 我 们 可 以 更 灵活 一 点 。 如 果 我 们 要 调用 的 子 程序 需 直 
接 或 间接 引用 A， 我 们 仅 需 将 A 保 存 到 它 的 存储 位 置 。 如 果 我 们 能 确定 没有 对 A 的 引用 ， 那 么 A 的 寄存 跨 
值 则 不 需要 被 保存 到 它 的 内 存单 元 中 。 在 一 次 调用 中 读 、 写 的 变量 集合 可 以 通过 过 程 间 数 据 流 分 析 
(interprocedural data flow analysis) 来 确定 ， 它 是 下 一 节 要 讨论 的 主题 。 


16.2.3 ”过程 间 数 据 流 分 析 


在 子 程序 的 执行 过 程 中 ， 我 们 知道 变量 将 被 读 取 并 修改 。 除 非 我 们 有 办 法 判定 哪个 变量 被 “接触 ， 
否则 我 们 必须 做 最 坏 的 假设 。 在 第 15 章 里 ， 在 基本 块 中 施行 局 部 优化 时 ， 我 们 这 样 做 过 。 例 如 ， 我 们 候 
定 在 调用 的 过 程 中 所 有 存放 在 寄存 器 中 的 变量 的 值 均 可 能 潜在 地 被 读 取 或 修改 。 类 似 地 ， 我 们 假定 在 一 
次 调用 中 任何 变量 均 可 能 被 修改 ， 因 此 没有 子 表达 式 的 值 可 以 被 保持 并 穿越 此 次 调用 (所 有 子 表达 式 的 
值 均 被 该 调用 注销 )。 其 结果 是 ， 我 们 只 能 优化 在 调用 之 间 但 不 穿越 这 些 调用 的 基本 块 代 三 。 

如 果 我 们 能 够 更 加 详细 地 推测 一 个 调用 的 效果 、 我 们 就 可 以 期 盼 做 得 更 好 一 些 。 对 调用 效果 的 分 析 
一 般 称 为 过 程 间 数据 流 分 析 。 在 某 些 情况 下 ， 我 们 可 以 使 用 16.4 节 中 的 技术 精确 地 分 析 子 程序 内 部 的 控 
制 流 。 而 在 其 他 情况 下 ， 我 们 只 能 使 用 调用 图 分 析 可 能 的 调用 序列 。 

与 调用 相关 的 两 个 简单 但 非常 有 用 的 集合 是 Def 和 Use Def(P(A,B,…)) 是 在 P(A,B,…) 被 调 过 程 中 
所 有 可 被 定义 ( 即 ， 被 赋值 ) 的 变量 的 集合 。 Use(P(A,B,…)) 是 在 P(A,B,…) 被 调 过 程 中 所 有 被 使 用 ( 即 ， 
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读 取 ) 的 值 (变量 或 有 名 常量 ) 的 集合 。 

Def 和 Use 集 合 允 许 我 们 估计 一 次 调用 的 可 能 效果 。 例 如 ， 如 果 在 一 次 调用 中 用 于 计算 子 表达 式 的 
变量 没有 一 个 在 Def 和 集合 中 ， 那 么 该 子 表达 式 的 值 在 此 次 调用 后 将 保存 不 变 。 类 似 地 ， 如 果 存 放 在 寄存 
器 里 的 变量 不 在 某 次 调用 的 Use 集 合 里 ， 那 么 在 此 次 调用 前 该 变量 就 不 需要 被 保存 到 它 相 应 的 内 存单 元 
里 (尽管 作为 调用 的 一 部 分 ， 可 能 仍然 需要 对 它 进 行 保存 和 恢复 的 工作 )。 此 外 ， 如 果 存 放 在 寄存 器 中 
的 变量 出 现在 某 次 调用 的 Def 集 合 里 ， 那 么 在 此 次 调用 后 这 个 寄存 器 原先 的 值 将 不 再 有 效 。 因 此 ， 在 调 
用 后 谈 寄 存 器 要 么 已 被 释放 ， 要 么 已 被 装 入 修改 后 的 值 。 无 论 是 哪 一 种 情况 ， 该 寄存 器 都 不 会 被 认为 是 
在 调用 点 使 用 的 ， 且 因此 不 需要 作为 调用 的 一 部 分 而 加 以 保存 或 恢复 。 

可 用 下 面 的 方法 计算 得 到 Def 和 Use 集 合 。 为 简单 起 见 ， 假 定 所 有 对 象 名 均 不 相同 (如 果 需 要 ,我 
们 可 以 创建 惟一 的 内 部 名 )。 我 们 首先 考虑 子 程序 没有 参数 的 简单 情况 。 

开始 的 时 候 ， 我 们 确定 那些 由 子 程序 读 取 或 写 人 的 变量 和 有 名 常量 。 这 些 集合 被 称 为 LocalDef(P) 


和 LocalUse(P)。 这 两 个 集合 在 编译 子 程序 时 很 容易 建立 。 当 语义 例 程 生成 访问 有 名 常量 或 变量 值 的 代 


码 时 ， 那 些 对 象 名 将 被 包括 在 当前 过 程 的 LocalUse 里 。 类 似 地 ， 在 生成 修改 变量 值 的 代码 时 会 将 对 象 名 
包括 进 LocalDef 中 。 由 于 别名 问题 ， 我 们 假设 对 数组 元 素 的 引用 将 波及 到 整个 数组 。 也 就 是 说 ， 如 果 我 
们 看 见 语句 A(i) := 1;， 我 们 并 不 能 准确 地 知道 哪个 元 素 被 改变 了 ， 因 此 ， 我 们 简单 地 把 A 包 括 到 
LocalDef 中 。 

现在 ， 考 虑 P 产 生 的 调用 效果 。 设 Called(P) 是 在 P 中 直接 调用 的 子 程序 的 集合 。 该 集合 可 简单 地 由 
调用 图 得 到 。 于 是 有 : 

Use(P) = LocalUse(P) wy  Use(Q) 


Qe Called(P) 
Def(P) = LocalDef(P) ,  Def(Q) 
Qe Catled(P) 


这 些 方程 是 递归 的 ; 我 们 将 搜寻 与 这 些 方程 相 容 的 最 小 集合 。 可 以 用 迭代 法 获得 这 样 的 解 ; 首先 ， 所 有 
子 程序 的 Use(P) 和 Def(P) 分 别 近似 取 值 为 LocalUse(P) 和 LocalDef(P)。 然 后 ， 通 过 包含 与 Called 中 的 子 
程序 相应 的 集合 来 更 新 Use 和 Def 集 合 。 重 复 进行 这 个 更 新 过 程 直至 Use 和 Def 集 合 不 再 发 生 任何 改变 。 
定义 在 图 16-7 中 的 例 程 compute_use_set() 使 用 了 该 方法 。(compute_def_set() 的 算法 与 之 类 似 .) 
有 关 该 迭代 方法 正确 性 的 证 明 将 作为 练习 15 留 给 读者 来 做 。 

void compute use set (void) 

i * 

? Compute Use sets for subprograms 


* including the effects of calls. 
*/ 


for (S c Subprogram set) 
Use(S) = local use(S); 


changes = TRUE; 


while (changes) { 
changes - FALSE; 
for (S E Subprogram set) { 
for (P € Called(S)) 1 
if ( ! (Use(P) cC Use(S)) ) { 
Use(S) = Use(S) (| ) Use(P); 
changes = TRUE; 





16-7 计算 Use 集 合 的 算法 
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E Z A 


作为 示例 ， 考 虑 如 下 程序 : 


declare 
A,B,C,D,E : Integer; 
procedure Q is 
in 
Write(A); 
end Q; 


procedure P is 
begin 
A:=B+C; 
Q; 
end P; 
begin 
C:=A+B: 
E:=C +D; 
P; 
end; 
通过 检查 子 程序 体 ， 我 们 得 到 : 


LocalUse(P) = {B,C} LocalDef(P) = (A) 
LocalUse(Q) = {A}  LocalDef(Q) = 2 


我 们 首先 将 Def 和 Use 集 合 近 似 为 相应 的 LocalDef 和 LocalUse 集 合 : 4 


Use(P) = {B,C} Def(P) = {A} 
Use(Q) = {A} Def(Q) = 2 


因为 P 调 用 Q，Q 的 定义 (Def) 和 使 用 (Use) 集合 被 包括 到 P 的 集合 中 : 


Use(P) = {A,B,C}  Def(P) = {A} 
Use(Q) = {A} Def(Q) = Ø 


由 于 没有 其 他 的 调用 ， 因 此 对 Def 和 Use 集 合 不 会 做 进一步 改变 ， 计 算 也 就 此 完成 。 借助 这 个 信息 ， 
我 们 能 够 确定 在 调用 P 后 A+B 已 被 注销 ， 但 C+D 依 然 有 效 。 此 和 外， 如 果 A、B、C、 D 和 E 已 在 寄存 器 中 ， 
那么 A、B 和 C 在 调用 前 就 必须 要 保存 ， 这 是 因为 它们 的 值 要 被 使 用 ， 而 且 A 由 于 其 值 已 改变 还 必须 从 内 
存 中 重新 装 入。 使 用 16.4 节 里 的 流 分 析 技术 ， 我 们 可 以 做 得 更 好 一 些 : 因为 A 是 定义 在 前 、 使 用 在 后 ， 
因此 在 调用 前 保存 A 不 是 真 的 有 必要 。 我 们 也 注意 到 ， 其 他 的 寄存 器 如 果 会 被 P 或 Q 另 作 他 用 ， 也 可 能 要 
被 保存 ; 然而 ， 使 用 16.2.2 节 中 的 技术 来 分 配 寄存 器 有 可 能 最 小 化 这 些 额 外 的 保存 。 

我 们 现在 考虑 有 参数 的 子 程序 调用 。 设 F 为 形 参 名 。 如 果 F 在 过 程 P 中 被 使 用 或 定义 ， 那么 我 们 把 F 
包含 在 集合 FormalUse(P) 或 FormalDef(P) 中 。 我 们 最 初 把 F 包 含 在 集合 Formais(F) 中 。 该 集合 是 所 有 可 
以 代表 F 的 形 参 名 。 因为 一 个 子 程序 的 形 参 可 以 作为 实 参 传递 给 另 一 个 子 程序 ， 所 以 我 们 必须 如 下 计算 
Formals: 

if (A e Formals(F) && 

A 在 调用 中 作为 实 参 出 现 ， 其 所 对 应 的 形 参 为 G) { 
Formals(F)=Formals(F)\_jG 

} 

集合 Formals(F) 很 有 用 ， 因 为 对 形 参 G (H, G € Formals(F)) 的 引用 ， 可 能 就 是 引用 F。 这 样 
的 间接 引用 必须 要 包括 在 Def 和 Use 集 合 里 。 

我 们 首先 考虑 Ada 语 言 中 使 用 的 三 种 参数 传递 模式 : in 、out 和 in out. 设 | 为 形式 in 参 数 。 那 么 | 将 
被 看 成 是 一 个 有 名 常量 且 只 能 读 不 能 写 。 我 们 可 以 查看 某 个 名 字 F € Formals() 是 否 出 现在 某 个 子 程序 
的 FormaiUse 集 合 里 。 如 果 没 有 出 现 ， 就 说 明 | 被 不 正确 地 使 用 ， 编译 器 将 给 出 合适 的 诊断 警告 。 在 任 
何 情况 下 ， 我 们 都 假定 任何 作为 in 参数 传递 的 变量 或 有 名 常量 在 调用 期 间 被 直接 或 间接 地 使 用 。 
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类 似 地 ， 设 DO 为 out 参 数 。O 可 写 但 不 可 读 。 我 们 可 以 查看 某 个 名 字 F e Formals(O) 是 否 出 现在 某 个 
子 程序 的 FormalDef 和 集合 里 。 如 果 没 有 出 现 ， 就 说 明 O 被 不 正确 地 使 用 ， 编 译 器 将 给 出 合适 的 诊 渐 敖 告 。 
我 们 假定 任何 作为 out 参 数 传递 的 变量 在 调用 期 间 被 直接 或 间接 地 定义 。 

设 1O 为 in out 参 数 。1IO 既 可 读 又 可 写 。 我 们 可 以 检查 名 字 某 个 F € Formals(IO) 是 否 出 现在 某 个 子 
程序 的 FormalUse 集 合 里 ， 以 及 检查 某 个 名 字 G € Formals(IO) 是 否 出 现在 某 个 子 程序 的 FormalDef 集 
合 里 。 如 果 未 同时 发 现 ID 的 定义 和 使 用 ， 则 IO 要么 未 被 使 用 ， 要 么 正 被 误 用 作 in 或 out 参 数 。 无 论 是 哪 
一 种 情况 ， 编 译 器 都 将 给 出 诊断 警告 。 我 们 假定 任何 作为 in out 参 数 传递 的 变量 在 调用 期 间 都 被 直接 或 
间接 地 定义 和 使 用 。 对 于 作为 in out 参 数 传递 的 结构 数据 对 象 ， 有 时 在 子 程序 中 我 们 仅 看 见 对 它 的 部 分 
成 员 进 行 赋值 的 情况 。 虽 然 此 时 该 结构 数据 对 象 的 其 他 成 员 并 未 改变 ， 但 我 们 还 是 假定 那 一 部 分 成 员 有 
隐 式 的 使 用 以便 将 它们 拷贝 到 已 更 新 的 结构 对 象 中 )。 

Pascal 语 言 中 的 值 和 引用 参数 模式 更 为 微妙 。 在 Pascal 中 ， 值 参 类 似 于 in 参数 。 初 始 化 为 相应 实 参 
值 的 值 参 可 当 作 局 部 变量 来 使 用 。 就 像 我 们 为 in 参数 做 的 那样 ， 对 于 值 参 Val ， 我 们 将 查看 某 个 名 字 F E 
Formals(Val) 是 否 出 现在 某 个 子 程序 的 FormalUse 集 合 里 。 对 Formals(Val) 中 的 名 字 进 行 写 也 是 可 能 的 。 
使 用 16.4 节 中 的 技术 ， 我 们 或 许 想 查看 一 个 值 的 使 用 是 否 总 是 先 于 它 的 任何 一 个 定义 。 这 项 检查 很 有 用 ， 
因为 经 验 显 示 ，Pascal 的 值 参 (默认 参数 模式 ) 常常 和 var 参 数 相 混 淆 ， 而 定义 先 于 使 用 是 这 种 混乱 的 
有 力 见证 。 我 们 假定 任何 作为 值 参 传递 的 变量 或 有 名 常量 在 调用 期 间 被 直接 或 间接 地 使 用 。 

Pascal 的 var 参 数 可 用 作 in 参 数 (以 避免 值 参 的 隐 式 拷贝 ), 也 可 用 作 out 参 数 , 还 可 用 作 in out 参 数 。 
如 果 Var 是 Pascal 的 var 参 数 ， 那 么 根据 任意 G € Formals(Var) 是 否 出 现在 一 个 FormalUse 集 合 或 一 个 
FormalDef 集 合 中 ， 或 是 在 两 个 集合 中 都 出 现 ， 我 们 将 Val 描 述 为 iIn、out 或 in out 7X. 

如 前 所 述 ， 我 们 将 Pascal 和 Ada 中 的 参数 模式 分 类 为 in 、out 或 in out。 此 外 ， 还 假定 形 参 被 正确 地 
使 用 ， 即 ，in 参 数 将 总 被 使 用 ，out 参 数 将 总 被 定义 ，in out 参 数 将 总 被 使 用 和 定义 。 因此， 对 于 作为 
实 参 传递 变量 和 有 名 常量 ， 我 们 根据 传递 它们 的 参数 模式 将 它们 添加 到 LocalDef 或 LocalUse 集 合 中 。 

现在 ， 我 们 可 以 将 参数 包括 进 Def 和 Use 集 合 中 : 


Use(P(a,, ..., a,)) = Use(P) _) (aj name a, is an in or in out parameter) 
Def(P(a,,..., a,)) = Def(P) (J {al name a; is an out or in out parameter] 
扩展 我 们 先前 的 示例 ， 考 虑 : 

declare 


A,B,C,D,E : Integer; 


procedure Q(Z : out Integer) is 
begin 


我 们 首先 计算 Formals 集 合 : | 
Formals(I) = (i) Formals(J) = {J,2} Formals(Z) = {2} 
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然后 ， 我 们 计算 Formalbef 和 FormalUse 集 合 : 

FormalUse(P) = {I,J} FormalDef(P) = © 

FormalUse(Q) = 2 FormalDet(Q) = (Z) 
是 in 参数 且 由 于 它 仅 出 现在 FormalUse 集 合 中 ， 所 有 | 的 使 用 是 正确 的 。 类 似 地 ，Z 是 out 参 数 且 由 于 它 
仅 出 现在 FormalDef 和 集合 中 ， 所 有 Z 的 使 用 也 是 正确 的 。 最 后 ，J 是 in out 参 数 且 由 于 J 出 现在 
Formaluse(P) 中 以 及 Z € Formals(J) 出 现在 FormalDef(Q) 中 ， 所 有 J 的 使 用 也 是 正确 的 。 

P 和 Q 的 LocalDef 和 LocalUse 集 合 在 我 们 包含 作为 实 参 传递 的 变量 时 并 未 改变 ; 因此 ，Use 和 Def 
集合 也 不 会 改变 : | 

Use(P) = {A,B,C}  Det(P) = (AE) 

Use(Q) = {A} Def(Q) = Ø 

在 P(B,C) 中 ，B 是 in 参 数 而 C 是 in Out 参数 ， 内 此 
Use(P(B,C) = {A,B,C}  Def(P(B,C)) = {A,C,E} 


利用 以 上 信息 ， 我 们 可 以 确定 在 调用 P 后 ，A+B 和 C+D 均 被 和 注销。 此外， 如 果 A、B、C、D 和 FE 已 
在 寄存 器 中 ,那么 A、B 和 C 可 能 将 不 得 不 在 调用 前 进行 保存 (因为 会 用 到 它们 的 值 )， 而 且 A 和 C 还 可 能 
不 得 不 从 内 存 中 重新 装 入 (因为 它们 的 值 可 能 已 被 改变 )。 

注音， 我们 计算 Formals、FormalDef 和 FormalUse 集 合 仅 是 用 来 检查 参数 是 否 按 它们 的 模式 所 说 
的 那样 被 正确 地 使 用 。 为 简单 起 见 ， 我 们 可 以 例 行 假定 所 声明 的 参数 模式 准确 地 描述 了 如 何 使 用 实 参 的 
方式 。 接 着 ， 为 进行 分 析 ， 我 们 仅 需 初始 化 LocalDef 和 LocalUse 集 合 (包括 实 参 )， 并 从 它们 开始 计算 
Def 和 Use 集 合 。 即 使 形 参 的 使 用 没有 按照 它们 的 模式 所 指示 的 来 进行 ， 我 们 的 分 析 依然 会 正确 ， 但 可 
能 过 于 保守 些 。( 例如 ，in out 参 数 被 用 作 in 参 数 ， 但 我 们 还 是 假定 它 既 被 定义 又 被 使 用 。) 


16.3 循环 优化 


计算 机 科学 中 最 著名 的 说 法 之 一 是 “90/10 规 则 ”一 一 程序 90% 的 执行 时 间 花 在 10% 的 代码 上 。 这 种 
认识 与 优化 是 密切 相关 的 。 与 其 试图 优化 每 件 事 ， 倒 不 如 明智 地 去 寻找 那些 一 旦 优化 必 将 产生 极 大 改进 

运用 剖析 工具 定位 那些 性 能 至 关 重 要 的 热点 区 域 会 十 分 理想 。 在 优化 期 间 , 虽然 缺乏 实际 运行 数据 ， 
但 是 我 们 对 循环 (尤其 是 嵌 套 的 循环 ) 还 是 会 予以 特别 的 关注 。 在 第 12 章 里 ， 我 们 用 特殊 办 法 对 循环 进 
行 有 效 的 翻译 。 不 仅 如 此 ， 在 第 15 章 里 讨论 的 局 部 优化 对 于 循环 体 而 言 也 特别 有 价值 。 也 就 是 说 ， 在 循 
环 体 中 将 变量 指派 到 寄存 器 、 追 踪 寄 存 器 内 容 和 避免 元 余 计 算 等 优化 是 非常 值得 做 的 。 事 实 上 ， 依据 
90/10 规 则 ， 我 们 有 理由 认为 ， 在 除 循环 体 和 其 他 负荷 很 重 的 代码 片段 以 外 的 地 方 应 禁止 局 部 优化 。 此 
举 将 加 快 翻译 的 速度 而 不 会 显著 影响 代码 的 质量 。 

在 下 面 的 章节 里 ， 我 们 将 讨论 特别 适用 于 循环 的 优化 。 我 们 的 讨论 将 集中 在 那些 能 产生 显著 优化 且 
相对 容易 实现 的 技术 上 。 . 


16.3.1 外 提 循 环 不 变 式 


一 个 非常 流行 的 循环 优化 是 将 循环 不 变 式 从 循环 体 中 外 提 到 循环 首部 。 简单 地 说 ， 和 循环 不 变 式 
(loop-invariant expression ) 就 是 那些 在 循环 体 中 值 保持 不 变 的 表达 式 。 如 果 循 环 不 变 式 出 现在 循环 体 中 ， 
它 将 在 每 次 迭代 时 重复 计算 。 一 个 明显 的 优化 是 将 循环 不 变 式 外 提 到 循环 的 首部 ， 在 那里 该 表达 式 仅 被 
计算 一 次 。 作 为 示例 ， 考虑 图 16-8 所 示 的 嵌 套 循环 。 假 定数 组 采用 行 主 序 分 配 ， 且 这 些 循环 被 翻译 为 如 
图 16-9 所 示 的 程序 样式 。 
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for | in 1..100 loop for | in 1..100 
for J in 1..100 loop tor J in 1100 loop 
for K in 1..100 loop for K in 1..100 
A(LJ,K) := Ied*K: K 
end loop; 


aS := (led) *K; 
en ; 

end loop; end loop; 
end loop; end loop; 





图 16-8 SEREIA 图 16-9 »^MEJRSRA EL AI — BREBH 


在 此 例 中 ， 很 容易 发 现 l*J 和 A(h(J) 是 最 内 野 循 环 中 的 不 变 式 ， 因 此 它们 的 计算 可 以 移 到 中 则 层 俑 
环 里 。 进 一 步 地 ，A() 在 中 间 层 循环 内 仍 为 不 变 式 ， 因 此 它 的 计算 可 移 至 最 外 层 循环 中 。 

为 了 外 提 循 环 不 变 式 ， 我 们 必须 首先 识别 那些 可 以 移动 的 表达 式 。 同 样 重 要 的 是 ， 我 们 也 必须 考虑 
安全 与 优化 的 效益 。 借 助 前 面 章节 开发 的 技术 ， 我 们 将 不 难 识别 循环 不 变 式 。 设 LoopDef 是 那些 在 循环 
体 中 有 定义 ( 即 ， 被 赋值 ) 的 变量 集合 。LoopDef 不 仅 包含 那些 在 循环 体 中 显 式 被 赋值 的 变量 ， 也 包含 
那些 在 (循环 内 ) 过 程 调用 中 潜在 被 改变 的 变量 以 及 循环 下 标 自 身 。 在 前 面 的 例子 中 ， 最 内 层 循环 的 
LoopDef 是 {A,K}， 中 间 层 循环 的 LoopDef 是 {A,J,K}， 最 外 层 循 环 的 LoopDef 是 {A,1,J,K)}。 

表达 式 的 相关 变量 (relevant variable) 是 那些 用 于 表达 式 计算 的 变量 。 如 果 表 达 式 的 相关 变量 没有 
一 个 出 现在 集合 LoopDef 中 。 则 该 表达 式 是 循环 不 变 式 。 例 如 ，A(D)(J) 依 赖 |、J 和 A 的 地 址 ， 因 此 在 最 内 
层 循环 中 是 循环 不 变 的 。l*J 在 最 内 层 循 环 中 也 是 循环 不 变 的 。 它 们 两 个 均 可 被 移 到 该 循环 首部 。 因 为 
A( 在 中 间 循 环 尼 为 循环 不 变 的 ， 所 以 它 可 被 再 次 移 到 中 间 循 环 的 首部 。 

出 现在 循环 体 中 的 表达 式 集 合 ， 以 及 LoopDef 中 的 变量 ， 可 在 翻译 循环 ， 即 计算 集合 Def 时 计算 。 接 着 ， 
循环 不 变 式 可 以 被 识别 并 在 代码 生成 前 被 移出 循环 。 图 16-10 中 定义 的 例 程 mark_invariants( ) 识 别 循环 不 
变 式 集合 。 在 图 16-11 中 定义 的 例 程 factor_invariants( ) 外 提 循 环 不 变 式 到 循环 首部 。 


void mark invariants (loop L) 
{ 


/* Find expressions invariant in loop L. */ 


Compute LoopDef for loop L; 


Mark as loop-invariant all expressions whose 
relevant variables are not members of LoopDef; 





图 16-10 识别 循环 不 变 式 的 算法 


void factor_invariants (loop L) 
{ , 
/* 
* Find expressions invariant in loop L 
* and move their calculation outside the loop body. 
*/ 


mark invariant s(L); 


for (each expression E marked as loop-invariant) { 
Allocate a new temporary T: 
Replace each occurrence of E in L with T; 
Insert T := E in L's header code immediately after 


the first loop termination test; 
/* 
* If L must iterate at least once 
* T := E may be placed immediately before L, 
*/ 





图 16-11 外 提 循 环 不 变 式 的 算法 
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因为 循环 不 变 式 可 以 被 外 提 多 层 循 环 , 所 以 factor_invariants() 应 当 首 先 应 用 于 最 内 层 循环 中 ， 
然后 才 是 包含 它 的 外 围 循环 ， 等 等 。 将 factor_invariants() 用 于 图 16-9 中 的 最 内 层 循环 ， 我 们 得 到 
如 图 16-12 所 示 的 代码 。 

接着 ，factor_invariants() 被 用 于 中 间 层 循环 ， 得 到 如 图 16-13 所 示 的 代码 。 节 后 ， 
factor invariants() 被 用 于 外 层 循 环 ， 但 未 发 现 循环 不 变 式 ， 此 时 程序 将 保持 不 变 。 尽 管 可 能 不 那 
么 直观 ， 但 是 外 提 图 16-9 中 程序 的 循环 不 变 式 还 是 产生 了 较 好 的 性 能 。 原 来 的 嵌 套 循环 将 执行 300 万 次 
下 标 操 作 和 200 万 次 乘法 。 图 16-13 中 优化 后 的 代码 将 执行 1 010 100 次 下 标 计 算 和 1 010 000 次 乘法 ， 这 是 
非常 显著 的 改进 。 


for i in 1..100 loop 
Temp3 := Adr(A(l)); 
for J in 1..100 loop 
Temp1 := Adr(Temp3(J)); 
Temp? := i*J; 
for K in 1..100 loop 


for | in 1..100 loop 
for J in 1..100 loop 
Tempi := Adr(A(I)(J)); 
Temp? := I*J; 
for K in 1..100 loop 


Temp1(K) := Temp2*K; Temp1(K) := Temp2*K; 
end ; 





end loop: loop 
end loop; end loop: 
end loop; end loop; 
图 16-12 循环 不 变 式 已 移出 最 内 层 图 16-13 循环 不 变 式 已 移出 的 
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不 是 所 有 的 循环 不 变 式 都 能 被 安全 地 或 有 利 可 图 地 从 循环 体 中 外 提出 来 。 特 别 地 ， 如 果 不 变 式 的 计 
算 在 循环 首部 出 现 “故障 ” ， 将 会 发 生 什么 呢 ? 优化 应 当 保持 程序 的 语义 ， 而 且 我 们 可 能 需要 忽略 或 延 
迟 这 些 故 障 的 处 理 。 

在 理想 状况 下 ， 在 外 提 的 表达 式 出 现 故障 时 ， 我 们 会 去 截取 那个 故障 ， 并 在 循环 体 使 用 该 表达 式 的 
时 候 重新 将 它 引 发 。 这 实在 很 “ 狭 猪 *， 因 为 我 们 不 想 在 循环 体 中 添加 代码 来 测试 那些 悬而未决 的 故障 。 
例如 ， 我 们 或 许 会 将 出 错 的 表达 式 替 换 为 一 个 在 被 访问 时 能 引发 故障 的 “错误 值 ”。 此 外 ， 我 们 还 可 以 
关闭 对 存放 外 提 值 的 位 置 的 访问 。 如 果 目 标 机 体系 结构 不 能 使 这 些 方法 可 行 ， 我 们 或 许可 以 把 循环 体 中 
对 外 提 值 的 引用 替换 为 执行 时 会 引发 故障 的 非法 操作 码 。( 这 涉及 到 在 执行 期 间 改变 程序 代码 ， 因 此 不 
适合 于 共享 或 重 入 式 代 码 。 ) 如 果 没 有 别 的 办 法 可 用 ， 我 们 可 以 设法 拥有 两 份 循环 体 拷贝 ， 一 个 是 优化 
的 ， 另 一 个 是 未 优化 的 。 如 果 外 提 循 环 不 变 式 计算 时 出 错 ， 那 么 错误 将 被 名 略 ， 且 程序 控制 此 时 转移 到 
那个 未 优化 的 代码 ， 在 那里 不 变 式 将 在 它 原来 的 位 置 上 被 计算 。 

除了 安全 性 以 外 ,我们 还 必须 考虑 获 益 情况 。 循 环 可 能 执行 零 次 〈 即 ， 一 次 也 不 执行 ) 或 循环 体 中 
的 控制 流 可 能 不 会 到 达 循 环 不 变 式 。 在 其 中 任何 一 种 情况 下 ， 如 果 外 提 不 变 式 ， 我 们 将 计算 一 个 可 能 用 
不 到 的 表达 式 一 这 简直 就 不 是 优化 ! 在 某 些 情况 下 ， 仅 通过 检查 循环 边界 ， 我 们 就 可 以 确定 循环 至 少 
会 执行 一 次 (前 面 的 例子 就 是 这 种 情况 )。 如 同 12.2.2 节 里 所 描述 的 ， 我 们 能 够 生成 for loop 代 码 ， 使 得 
我 们 可 以 首先 测试 循环 体 是否 执 行 ， 然 后 再 测试 循环 是 否 执 行 多 次 。 如 果 循 环 不 变 式 被 移 到 初始 测试 之 
后 ， 那 么 我 们 知道 ， 仅 当 循环 至 少 执行 一 次 时 它们 方 能 计算 。 

while loop 可 以 迭代 零 次 ， 因 此 ， 外 提 不 变 式 到 while loop 的 首部 可 能 不 安全 。 许 多 编译 器 忽 赂 安 
会 考虑 而 执意 外 提 不 变 式 。 更 谨慎 的 编译 器 仅 外 提 那 些 不 会 出 错 的 表达 式 。 

如 果 一 个 表达 式 的 值 将 在 所 有 可 能 的 执行 路 径 上 使 用 (参见 16.4.2 季 )， 则 该 表达 式 非常 性 。 对 于 在 
循环 体 中 一 个 非常 忙 的 循环 不 变 式 ， 如 果 循环 执行 至 少 一 次 ， 那 么 该 不 变 式 将 总 被 使 用 。 非 常 全 的 企 水 
未 变 式 是 最 佳 的 外 提 候 选 。 在 我 们 的 示例 中 ， 循 环 体 是 一 个 简单 的 基本 块 ， 因此， 其 中 所 有 的 表达 式 都 
非常 忙 。 
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如 果 表 达 式 不 是 非常 忙 ， 我 们 或 者 会 很 小 心 而 不 把 它 外 提 ， 或 者 我 们 坚持 外 提 它 。 可 能 最 好 的 方法 
是 使 用 通过 剖析 收集 的 数据 来 估 测 循环 执行 期 间 不 变 式 的 使 用 频 度 。 如 果 所 期 望 的 使 用 频次 大 于 1， 那 
么 平均 而 言 ， 外 提 不 变 式 将 是 有 益 的 且 应 当 在 编译 期 间 被 允许 进行 。( 很 少 有 产品 编译 器 实际 使 用 剖析 
数据 。) 


16.3.2 循环 中 强度 削弱 


有 了 时， 代价 昂贵 的 操作 可 被 代价 低廉 的 操作 所 取代 而 得 以 强度 前 弱 (reduced in strength ) 。 循 环 中 ， 
乘法 有 时 可 用 加 法 来 替换 。 因 为 乘法 通常 比 加 法 慢 3 ~ 10 倍 ， 因 此 强度 前 弱 能 够 产生 显著 的 加 速 。 

(循环 中 的 ) 归纳 变量 (induction variable) 是 那些 其 值 有 规律 地 以 常量 值 递 增 或 递减 的 变量 。 
Pascal 和 Ada 语 言 中 仅 允 许 单位 步 长 ; 而 其 他 语言 (如 FORTRAN ) 允许 较 大 的 步 长 。Aho 等 人 已 提出 寻 
找 循环 中 归纳 变量 的 算法 (Aho、Sethi 和 Ullman 1985， 算 法 10.9)， 但 这 里 ， 我 们 只 把 注意 力 集中 在 最 
常见 的 一 类 归纳 变量 一 一 for loop 的 下 标 。 

我 们 定义 形式 为 itc1+cs 的 表达 式 为 妇 纳 表达 式 ， 其 中 i 是 归纳 变量 ，c1、c2 是 循环 不 变 式 。 我 们 知道 


归纳 变量 i 的 值 的 步 进 序列 为 :ib、iots、io+2s、…， 其 中 是 io 归 纳 变 量 i 的 初 值 ，s 是 步 长 (Ada 和 Pascal 


中 步 长 为 + 1 )。 我 们 的 归纳 表达 式 将 因此 通过 下 列 的 值 序列 步 进 : i*C1+C2、 lo*C1+C2+S*C1.、 
ioxCi+Ca+2SxCi、…。 在 每 一 步 ， 归 纳 表达 式 以 步 长 s*ci 变 化 。 

我 们 可 用 初 值 为 io*c1+cs 的 临时 变量 取代 每 个 归纳 表达 式 ， 且 在 每 次 迄 代 的 末尾 将 此 临时 变量 的 值 
增加 s*c;。 这 种 殖 换 是 有 益 的 ， 因 为 在 原来 每 次 迭代 时 执行 的 乘法 (以 及 可 能 的 加 法 ) 现 已 被 每 次 近代 
末尾 执行 的 加 法 所 取代 。 

为 实现 强度 削弱 ， 我 们 首先 要 识别 归纳 表达 式 。 这 比较 容易 ， 因 为 那些 包含 循环 下 标的 表达 式 可 被 
轻而易举 地 识别 且 循环 不 变 式 也 可 用 16.3.1 节 中 的 mark_invariants () 标 记 出 来 。 每 个 归纳 表达 式 被 分 


算法 





strength reduce ( ) 的 定义 如 图 16-14 所 未 。 


void strength reduce(loop L) 
{ 
/* 
* Find induction expressions in loop L 
* and strength reduce them. 
*/ 


mark invariants (L); 


for (each expression E in L of the form I*C+D 
where I is L’s loop index and C and D involve 
only marked loop-invariants) { 
Allocate a new temporary T; 
Replace each occurrence of E in L with T; 
Insert T := I,* C + D immediately before L 
where I, is the initial value of I in L; 
Insert T := T + S * C at the end of L's body 
where S is the step size by which I is incremented; 
/* S is negative if I is decremented. */ 





图 16-14 循环 中 执行 强度 削弱 的 算法 


作为 示例 ， 再 次 考虑 图 16-13 中 已 外 提 循 环 不 变 式 的 程序 。 表 达 式 1*J 和 Temp2*K 是 归纳 表达 式 。 
在 三 重典 套 循 环 中 的 每 一 层 调 用 strength_Treduce ( ) ， 其 结果 代码 如 图 16-15 所 示 。 

复写 传播 (copy propagation， 参 见 16.4.4 节 ) 是 一 种 优化 ， 它 识别 在 形 为 A := B 的 赋值 语句 后 ， 如 
果 A 或 B 在 赋值 后 均 未 改变 ， 对 A 的 引用 可 被 替换 为 B。 对 图 16-15 中 的 代码 应 用 复写 传播 ， 我 们 看 到 ， 


本 一 个 临时 变量 ， 且 在 循环 首部 和 结尾 处 分 别 插入 必要 的 初始 化 和 增值 代码 。 在 循环 中 执行 强度 削弱 的 
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Temp2 必 然 含 有 Temp4 的 值 ， 并 因此 所 有 对 Temp2 的 引用 可 被 替换 为 Temp4。 此 优化 给 我 们 带 来 如 图 
16-16 所 示 的 更 加 简单 的 代码 。 


for | in 1..100 loop 
Temp3 := Adr(A(l)); 
Temp4 :=1 -- Initial value of I*J 
for J in 1..100 loop 
Temp1 := Adr(Temp3(J)); 
Temp2 := Temp4; -- Temp4 holds FJ 
Temp5 := Temp2; —- initial value of Temp2*K 


for K in 1..100 loop 
Temp1(K) := Temp5; -- Temp5 holds Temp2*K = I«J«K 
Temps = Temp5 + Temp2; 

end loop 

Temp4 -- Temp4 «E 
i ' 
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for | in 1..100 loop 
Temp3 := Adr(A(I)); 
Temp4 :- |; —- Initial value of IJ 
for J in 1..100 loop 
Temp1 := Adr(Temp3(J)); 
—— Temp4 holds l+J 
Temp5 := Temp4; —- Initial value of Temp2«K 
for K in 1..100 loop 
Temp1(K) := Temp5; -- Temp5 holds Temp2*K = Ie J«K 
Temps := Temp5 + Temp4; 
end loop 
Temps © = Temp4 +1; 
end loop: 
end loop; 





图 16-16 强度 削弱 和 复 尘 传播 后 的 嵌 套 循 坏 


另 一 个 有 价值 的 强度 削弱 隐藏 在 下 标 操 作 里 。 假 定数 组 A 被 定义 为 A: array(1..100, 
1..100,1..100) of Integer。 我 们 知道 在 下 标 操作 中 “隐藏 ”着 乘法 。 具 体 地 说 ，Adr(A(D) 可 扩展 为 
Ao+(10000*1) 一 10000， 其 中 Ao 是 A 的 开始 地 址 。 这 个 看 似 复杂 的 表达 式 是 妇 纳 表达 式 ! 

类 似 地 ，Adr(Temp3(J)) 扩 展 为 Temp3+(100*J) 一 100， 它 也 是 归纳 表达 式 。 最 后 ，Temp1(K) 扩 展 
为 (Temp1+K 一 1)1， 其 中 1 是 间接 操作 符 。 而 Temp1+K 一 1 也 是 归纳 表达 式 。 将 这 些 扩展 后 的 下 标 表达 
式 替换 到 图 16-16 的 代码 中 ， 则 得 到 如 图 16-17 所 示 的 代码 。 


for | in 1..100 loop 
Temp3 := Ag4(10000*1)-10000; 
Temp4 := |; —- Initial value of I*J 
for J in 1. 100 loop 
Temp! := Temp3+(100"J)-100 
-- Termp4 holds 
Temps := Temps: —- Initial value of Temp4+K 
for K in 1..100 loop 
(Temp1+K-1)T := Temps; -- Temp5 holds Temp4+K = I«J«K 
Temp5 := Temp5 + Temp4; 


end loop; 

Temp4 := Temp4 + t; 
end loop, 

end loop; 
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在 每 个 循环 中 应 用 strength_reduce() ， 我 们 得 到 图 16-18 中 所 示 的 代码 。 再 次 地 ， 复 写 传播 通过 
删除 Temp1 和 Temp3 对 程序 进行 整理 ， 产 生 如 图 16-19 所 示 的 代码 。 | 
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Temp6 := A, —- initial value of Adr(A(l)) 
for i in 1..100 loop 
Temp3 := Tempe; 
Temp4 := |; —- Initial value of I«J 
Temp7 := Temp3 —- Initial value of Adr(A(I(J)) 
for J in 1..100 loop 
Tempt := Temp7; 
Temp5 := Temp4; -- Initial value of Temp4«K 
Temps := Temp1 -- Initial value of Adr(A(1)(J(K)) 
for K in 1..100 loop 
Temp8T := Temp5; -- Temp5 holds Temp4*K = i«J«K 
Temp5 := Temp5 + Temp4; 
Temps := Temps + 1; 
end loop; 
Temp4 := Temp4 + |; 
ang ap? i Temp? + 100; 


end loop; 
Temp6 := Temp6 + 10000; 
end loop; 
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Temp6 := A, -- Initial value of Adr(A(1)) 
for | in 1..100 loop 
Temp4 := |; —- Initial value of I*J 
Temp7 := Temp6 —- Initial value of Adr(A(1)(J)) 
for J in 1..100 loop 
Temp5 := Temp4; —- Initial value of Temp4*K 
Temp8 := Temp7 —- initial value of Adr(A((J4K)) 
for K in 1..100 loop 
Temp8T := Temp5; —— Temp5 holds Temp4*K = I«J«K 
Temp5 := Temp5 + Temp4; 


Temps := Temp8 + 1; 
end loop: 
Temp4 := Temp4 + I; 


Temp7 := Temp7 + 100; 
end loop; 
Temp6 := Temp6 + 10000; 
end loop; 





图 16-19 下 标 代码 强度 削弱 和 复写 传播 后 的 媒 套 循环 


产生 的 代码 比 原来 的 三 重 侈 套 循 环 难 读 得 多 ， 但 它 相当 快 一 一 这 也 就 是 优化 的 目的 ! 事实 上 ， 现 在 
我 们 可 以 看 到 J 和 K 在 它们 各 自 的 循环 体 中 都 没有 被 引用 (自身 的 增值 除外 )。 这 就 有 可 能 根据 那些 被 引 
用 ( 且 增 值 变化 ) 的 值 ( 即 ， 那 些 可 从 J 和 K 导 出 的 归纳 表达 式 ) 来 重 写 循环 的 控制 。 

尽管 本 节 集 中 讨论 的 是 乘法 的 强度 削弱 问题 ， 但 其 他 操作 的 强度 削弱 也 同样 是 可 能 的 。 例 如 ， 
表达 式 length'(A&B) 可 被 强度 削弱 为 length' (A)+length' (B)。 这 是 一 个 明显 的 优化 ， 因 为 它 避 免 了 
串 A 和 串 B 的 连接 操作 。Fong 和 Ullman(1976) 对 复杂 操作 的 强度 削弱 进行 了 研究 。 


16.4 全 局 数据 流 分 析 


全 局 优化 〈 跨 越 多 个 基本 块 的 优化 ) 通常 依赖 于 对 程序 中 所 有 可 能 的 执行 路 径 的 分 析 。 对 数据 值 在 
穿越 基本 块 时 的 修改 情况 的 分 析 是 全 局 数据 流 分 析 (global data flow analysis ) 。 一 般 而 言 ， 我 们 不 可 能 
事先 准确 知道 程序 究竟 会 执行 哪 一 个 基本 块 序列 。 因 此 ， 我 们 执行 的 数据 流 分 析 假 定 通过 流 图 的 所 有 路 
径 都 是 可 能 发 生 的 。 无 论 一 个 特定 的 程序 执行 何 种 路 径 ， 基于 这 种 分 析 的 优化 都 是 有 效 的 。 


16.4.1 单 路 径流 分 析 


我 们 通过 求解 涉及 活跃 变量 识别 的 一 个 相当 简单 的 问题 来 开始 数据 流 分 析 的 介绍 。 我 们 知道 ， 活 路 
恋 量 是 那些 在 被 赋予 新 值 以 前 ,其 当前 值 还 要 被 使 用 的 变量 。 在 全 局 活跃 变量 分 析 的 语 境 中 ， 我 们 认为 ， 
如果 沿 着 革 - 一 条 路 径 ， 一 个 变量 在 被 重新 定义 前 可 能 被 使 用 ， 则 这 个 变量 是 活跃 的 。 
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在 第 15 章 里 ， 我 们 假定 所 有 变量 在 基本 块 末尾 都 是 活跃 的 。 借 助 全 局 活跃 变量 分 析 ， 我 们 可 以 识别 
那些 当前 值 已 不 活跃 《 即 ， 变 量 值 已 “死亡 ”) 的 变量 。 非 活跃 变量 的 值 不 需要 在 基本 块 末 尾 加 以 保存 。 
类 似 地 ， 如 果 在 子 程序 的 入 口 得 知 某 变量 的 值 非 活 跃 ， 那 么 我 们 就 不 需要 在 调用 前 保存 这 个 变量 的 值 ， 
即使 该 变量 的 值 会 被 这 个 子 程序 所 使 用 。 

设 b 为 基本 块 索引 。 定 义 Liveln(b) 为 到 达 基 本 块 b 人 口 的 活跃 变量 集合 。 类 似 地 ， 定 义 LiveOut(b) 是 
离开 基本 块 b 出 口 的 活跃 变量 集合 。Liveln 和 LiveOut 集 合 不 是 相互 独立 的 。 设 S(b) 为 流 图 中 基本 块 b 的 
所 有 后 继 的 集合 。 我 们 有 : 

LiveOut(b) = vy Liveln( 


即 ， 变 量 在 一 个 基本 块 出 口 处 活跃 ， 同 时 它 也 在 该 基本 块 的 某 些 后 继 块 的 入 口 处 活跃 。 如 果 一 个 基本 块 
设 有 后 继 块 ， 那 么 它 的 LiveOut 集 合 为 空 。 

设 LiveUse(b) 是 基本 块 b 中 那些 被 定义 前 要 被 使 用 的 变量 集合 。LiveUse(b) 是 常量 集合 (constant 
set)， 它 的 值 只 由 出 现在 基本 块 b 中 的 语句 决定 。 很 容易 得 知 ， 如 果 v € LiveUse(b), PAv € 
Liveln(b); 即 ，Liveln(b) 2 LiveUse(b). 

设 Def(b) 是 那些 在 基本 块 b 中 定义 的 变量 的 集合 。 同 样 ，Def(b) 也 是 一 个 常量 集合 ， 它 的 值 也 只 由 
出 现在 基本 块 b 中 的 语 名 决定。 我 们 可 在 建立 基本 块 b 的 时 候 计算 Def(b)。 

如 果 一 个 变量 在 基本 块 b 出 口 处 活跃 ， 它 要 么 在 b 中 定义 ,要么 在 b 的 入 口 处 活跃 。 也 就 是 说 ， 
Liveln(b) 2 LiveOut(b) - Def(b)。 经 仔细 考虑 ， 我 们 可 以 证 明 ， 变 量 在 基本 块 入 口 处 活跃 的 条 件 只 能 
是 : 要 么 它 在 基本 块 的 LiveUse 和 集合 里 ， 要 么 它 在 基本 块 出口 处 活跃 且 没 有 在 基本 块 里 被 重新 定义 。 此 
分 析 导 致 以 下 方程 : | 

Liveln(b) = LiveUse(b) y (LiveOut(b) - Def(b)) 
针对 每 个 基本 块 ， 都 有 这 种 形式 的 方程 将 Liveln 和 LiveOut 联 系 起 来 。 全 局 活跃 变量 分 析 必 须 为 每 个 基 
本 块 计 算 与 它们 的 数据 流 方程 解 一 致 的 Liveln 和 LiveOut 集 合 。 

为 使 分 析 更 具体 ， 我 们 考虑 以 下 示例 : 

A:= 1; 

if A=B then 

B:-1; 


end if; 
D := A+B; 
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图 16-20 用 于 活跃 变量 分 析 的 流 图 
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从 基本 块 中 ， 我 们 首先 抽取 Def 和 LiveUse 集 合 : 


Ø 
{A,B} 





我 们 可 以 从 最 后 一 个 基本 块 开始 以 后 向 方式 来 求解 。 事 实 上 ， 在 这 个 分 析 过 程 中 ， 信 息 流 是 从 变量 
的 使 用 回溯 到 它 的 定义 点 ， 因 此 ,活跃 变量 的 检测 有 时 也 被 称 为 是 一 个 后 向 流 (backward-flow) 问题 。 
我 们 将 会 看 到 那些 信息 流 和 控制 流 方向 一 致 的 数据 流 问 题 ， 它 们 是 前 向 流 (forward-flow) 问题 。 

由 于 b4 没 有 后 继 ， 因 此 LiveOut(b4) = O. AEA: 

Livein(b4) = LiveUse(b4) = {A,B} 


现在 ， 


LiveOut(b2) = Liveln(b4) = {A,B} 以 及 
LiveOut(b3) = Liveln(b4) = {A,B} 


在 b2 和 b3 中 没有 活跃 变量 的 使 用 ， 因 此 我 们 有 : 
Liveln(b2) = LiveOut(b2)-Def(b2) = {A,B}-{B} = (A) 
Liveln(b3) = LiveOut(b3)-Def(b3) = {A,B}-{C} = {A,B} 
LiveOut(b1) = Liveln(b2) ų ) Liveln(b3) = (A) _) {A,B} = {A.B} 
最 后 ， 
Livein(b1) = LiveUse(b1) X ) (LiveOut(b1)-Def(b1)) = (B) v ) ((A.BI-(A)) = (B) 


我 们 总 结 得 到 : 





| 92 | (A | {AB} | 





该 例子 也 说 明了 活跃 变量 分 析 的 另 一 种 用 法 。 如 果 变 量 在 初始 基本 块 的 块 首 活跃 ， 那 么 该 变量 可 在 
被 定义 前 被 使 用 一 一 而 这 种 定义 前 使 用 是 一 种 常见 的 错误 。 在 我 们 的 例子 中 ，Livein(b1) = (B), 28B 
事实 上 在 被 定义 前 已 被 使 用 。 

如 果 我 们 将 注意 力 集中 到 那些 有 惟一 开始 结 点 ( 即 没 有 前 驱 的 结 点 ) 和 多 个 结束 结 点 〈 即 没有 后 继 
的 结 点 ) 的 流 图 上 ， 我 们 总 能 求解 出 那些 数据 流 方程 。 其 想法 是 ， 由 基本 块 所 生成 的 值 开始 (如 此 例 中 
用 到 的 LiveUse 集 合 )， 在 去 除 那些 在 基本 块 内 被 注销 的 值 (如 此 例 中 用 到 的 Def) 后 ， 将 其 余 的 值 传播 
到 前 驱 结 点 中 。 此 过 程 将 一 直 和 迭代 到 In 和 Out 集合 收敛 为 止 。 


| Def(1) = Def(2) = $ Def(3) = $ Def(4) 6 





LiveUse(1) = 中 LiveUse(2) = o LiveUse(3) = > LiveUse(4) = (A) 
图 16-21 AJER ES 
仿 人 惊讶 的 是 ， 数 据 流 问 题 的 解 不 必 惟一 。 要 明白 为 什么 会 这 样 ， 可 以 考虑 图 16-21 中 与 一 个 简单 
循环 相对 应 的 流 图 。 在 这 个 流 图 中 没有 定义 任何 变量 ， 而 基本 块 b4 中 却 使 用 了 变量 A。 最 明显 的 解 是 将 
这 个 引用 往 后 传播 ， 那 么 对 于 所 有 四 个 基本 块 来 说 ，Liveln = {A}. HWE, 还 可 能 有 一 些 毫 无 道理 的 
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解 。 例 如 ， 下 面 的 解 是 一 个 有 效 解 ( 即 满足 所 有 的 数据 流 方程 ): 





该 解 最 显著 的 一 点 是 B 没 有 在 任何 基本 块 中 使 用 过 ! 该 问题 在 于 基本 块 b2 和 b3 互 为 父 结 点 ， 且 因为 B 从 
未 被 定义 过 (所 有 的 Def 集 合 均 为 空 )， 所 以 一 旦 把 B 包 含 到 Liveln 集 合 里 ， 则 它 将 永远 不 会 被 去 除 。 

对 于 数据 流 方程 ， 我 们 既 可 以 消极 地 也 可 以 乐观 地 看 待 它们 。 消 极 的 看 法 是 假定 所 有 变量 都 是 活跃 
的 ， 除 非 能 在 所 有 后 继 基本 块 中 看 到 显 式 的 定义 。 乐 观 的 看 法 是 仅 当 我 们 在 某 个 后 继 基本 块 中 看 到 活跃 
的 引用 (中 间 没 有 插入 新 的 定义 ) 时 ， 假 定 一 个 变量 是 活跃 的 。 

从 选择 含有 最 小 可 能 的 Liveln 和 LiveOut 集 合 的 (有 效 解 ) 这 个 意义 上 说 ， 乐 观 的 看 法 将 是 “最 小 
的 ”。 在 练习 27 里 ， 我 们 将 证 明 总 存在 最 小 的 解 。 出 于 优化 目的 ， 我 们 希望 获得 最 小 活跃 变量 解 ， 因 为 
活跃 变量 需要 保存 而 非 活跃 变量 则 可 忽略 。 换 句 话说 ， 仅 当 在 后 继 块 中 能 实际 看 到 一 个 变量 的 活跃 引用 
时 ， 该 变量 才 被 认为 是 活跃 的 。 

我 们 可 以 将 寻找 可 能 未 初始 化 的 变量 的 问题 形式 化 为 一 个 前 向 数据 流 问题 。 前 向 数据 流 问 题 以 和 程 
序 执行 期 间 的 控制 流 一 致 的 方向 追踪 信息 流 。 

我 们 认为 未 初始 化 变量 是 那些 含有 非法 值 的 变量 。 某 些 编译 器 一 一 例如 PL/C (Conway 1973) 一 一 
将 所 有 变量 初始 化 为 一 个 特殊 的 非法 值 且 在 使 用 变量 前 测试 它 是 否 为 该 值 。 在 普通 的 Pascal 和 Ada 语 言 
编译 器 中 ， 约 束 变量 和 访问 型 变量 在 使 用 前 通常 要 进行 有 效 性 的 检查 。 | 

我 们 的 分 析 可 以 确定 在 基本 块 开 始 或 结束 处 哪些 变量 可 能 是 未 初始 化 的 。 未 初始 化 变量 在 使 用 前 被 
测试 。 那 些 不 在 未 初始 化 集合 里 的 变量 一 定 有 合法 的 值 且 不 需要 在 使 用 前 进行 检查 。 设 Uninitin(b) 是 那 
些 在 基本 块 b 的 入 口 处 未 初始 化 的 变量 集合 。 类 伺 地 ， 设 UninitOut(b) 是 那些 离开 基本 块 b 时 未 初始 化 的 
恋 量 集合 。 如 果 一 个 变量 在 离开 集合 P(b) 中 的 基本 块 时 是 未 初始 化 的 ， 其 中 P(b) 是 流 图 中 b 的 直接 前 驱 ， 
则 该 变量 在 基本 块 b 人 口 处 未 初始 化 。 即 : 

Uninitin(b) = Z UninitOut() 


如 果 基 本 块 没有 前 驱 ， 那 么 它 的 Uninitin 集 合 将 包含 所 有 变量 。 设 Init(b) 是 b 中 那些 在 b 结 尾 处 已 经 
初始 化 的 变量 集合 。 该 集合 既 包 括 那 些 被 赋予 已 知 有 效 值 的 变量 ， 也 包含 那些 在 使 用 前 被 测试 的 变量 。 
在 后 一 种 情况 下 ， 一 个 非法 值 可 能 已 经 导致 错误 的 出 现 ， 然 而 ， 如 果 控 制 能 到 达 基 本 块 末 尾 ， 则 这 样 的 
变量 值 就 一 定 是 有 效 的 。 由 Init(b) 的 定义 ， 我 们 得 知 ，UninitOut(b) 2 Uninitln(b) ~ Init(b). 

设 Uninit(b) 是 那些 在 b 中 成 为 未 初始 化 的 且 随 后 也 未 在 该 基 本 块 中 被 重新 定 值 或 测试 的 变量 集合 。 一 
个 变量 成 为 未 初始 化 的 ， 可 能 是 因为 某 个 操作 的 副作用 (如 释放 一 个 堆 对 象 ) ECT TIEA (Anul), 
或 者 是 因为 该 变量 刚刚 被 创建 (如 程序 块 中 局 部 声明 的 变量 ) 。 可 以 很 容易 地 知道 ，UninitOut(b) 2 
Uninit(b). 

UninitOut(b) 的 计算 从 Uninitin(b) 开 始 ， 加 入 那些 成 为 未 初始 化 的 变量 并 去 除 掉 那 些 已 知 为 初始 化 
的 变量 : 

UninitOut(b) = Uninit(b) y (Uninitin(b) - Init(b)) | 
因为 Uninitout 是 从 Uninitin 计 算得 来 的 ， 所 以 这 是 一 个 前 向 流 问 题 ; 其 信息 流 和 控制 流 的 方向 一 致 。 同 
样 地 ， 它 的 解 不 需要 惟一 。 因 此 ， 我 们 采取 保守 的 方法 并 假定 在 第 一 个 基本 块 和 人 口 处 所 有 的 变量 都 是 未 
初始 化 的 。 这 就 确保 了 在 一 个 基本 块 入 口 处 ， 某 变量 仍 将 被 看 成 是 未 初始 化 的 ， 除 非 已 知 此 变量 在 到 访 
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基本 块 的 所 有 路 径 上 均 被 初始 化 。 


16.4.2 全 路 径流 分 析 


我 们 刚才 讨论 的 数据 流 问 题 均 假定 ， 一 个 特征 如 果 可 被 证 明 在 业 个 路 径 上 成 立 的 话 ，、 那 么 该 特征 将 
为 真 。 这 样 ， 如 果 存 在 某 些 导致 变量 活跃 引用 的 路 径 ， 则 该 变量 将 被 看 成 是 活跃 的 ; 同样 ， 如 果 存 在 任 
音 一 条 缺少 适当 初始 化 (或 测试 ) 的 路 径 ， 则 某 个 变量 将 被 认为 是 未 初始 化 的 。 这 类 数据 流 问 题 被 称 为 
单 路 径 (any-path) 问题 。 单 路 径 问题 的 解 不 能 保证 所 期 待 的 特征 一 定 成 立 ， 而 仅仅 是 可 能 成 立 。 

数据 流 问 题 也 能 通过 那些 声明 所 期 待 的 特征 必须 在 所 有 可 能 路 径 上 成 立 的 全 路 径 (all-path) 方式 
来 求解 。 在 全 路 径 问 题 的 解 中 ， 所 期 待 的 特征 可 确保 总 是 成 立 的 。 

(前 向 流 的 ) 全 路 径 问题 的 一 个 极 佳 的 例子 是 表达 式 可 用 性 的 确定 。 如 果 一 个 表达 式 已 被 计算 ， 而 
且 再 次 计算 它 将 是 元 余 的 ， 则 该 表达 式 被 称 作 是 可 用 的 (available)。 表 达 式 可 用 性 的 信息 在 施行 全 局 公 
共 子 表达 式 优 化 时 是 至 关 重 要 的 。 

我 们 首先 关注 如 何 确定 在 基本 块 中 计算 的 表达 式 在 离开 基本 块 时 是 否 可 用 。 起 初 ， 它 看 起 来 可 以 使 
用 那个 曾 用 于 局 部 公共 子 表达 式 优化 的 last_def 值 (参见 15.4.2 节 )。 但 不 幸 的 是 ， 它 不 堪 此 用 。 这 个 
问题 在 于 ，1last_def 考 虑 的 仅仅 是 表达 式 的 直接 操作 数 ， 而 忽略 了 子 操作 数 的 赋值 。 为 解决 这 个 难点 ， 
对 于 给 定 的 表达 式 ， 我 们 计算 确定 该 表达 式 值 所 需 的 所 有 变量 。 这 一 点 可 以 通过 定义 与 临时 变量 T 关 联 
的 表达 式 计算 的 相关 变量 (relevant variable) 集合 来 做 到 。 该 集合 我 们 称 之 为 RelVar(T)， 并 按 图 16-22 
所 示 来 计算 它 。 


void compute rel vars (temporary T) 

{ 
/* 
* Compute relevant variables for expression 
* corresponding to temporary T. 


*/ 
RelVar(T) = SET OF( T ); 
while (there exists a temporary T € RelVar(T)) 
Replace T in RelVar(T) with tbe variables 
and temporaries used to compute T'; 





图 16-22 计算 相关 变量 的 算法 


compute rel vars() 递 归 地 将 集合 中 的 临时 变量 替换 为 计算 它们 所 需 的 其 他 变量 和 临时 变量 ， 
直到 集合 中 只 剩 下 变量 为 止 。 

T 在 出 口 处 可 用 ， 当 且 仅 当 : 

yX e RelVar(T) : last_def(X) < last_def(T) 

定义 AvailOut(b) 为 在 基本 块 b 出 口 处 可 用 的 临时 变量 集合 。 回 想 一 下 ， 临 时 变量 名 将 惟一 地 与 表达 
RAR, 以便 容易 地 确定 那些 潜在 的 元 余 表 达 式 。 定 义 Availin(b) 为 基本 块 D 入 口 处 可 用 的 临时 变量 集合 。 
因为 这 是 一 个 前 向 流 问 题 ， 所 以 我 们 知道 Availin(b) 将 依赖 于 b 的 前 驱 的 AvailOut 值 。 我 们 仍 用 P(b) 作 为 
流 图 中 b 的 前 驱 集 合 。 现 在 ， 我 们 要 求 临 时 变量 应 该 在 所 有 的 路 径 上 先行 计算 ， 且 在 所 有 的 AvailOut 集 
合 中 : 

Availln(b) = Q AvallOut() 


我 们 很 自然 地 假设 在 第 一 个 基本 块 入 口 处 没有 表达 式 可 用 。 只 有 在 一 、 两 种 情况 下 表达 式 在 基本 块 


出 口 处 可 用 。 其 一 ， 它 在 基本 块 中 计算 且 在 最 后 一 次 计算 后 没有 被 注销 。 这 种 情况 可 以 通过 检查 相关 变 


量 来 确定 。 设 Computed(b) 为 那些 在 基本 块 中 已 被 计算 且 随 后 未 被 注销 的 表达 式 集合 。 
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此 外 ， 一 个 表达 式 在 基本 块 入 口 处 可 用 且 未 在 基本 块 中 被 注销 。 即 ， 该 表达 式 的 相关 变量 没有 一 个 
在 基本 块 中 被 赋值 。 设 Kill(b) 为 基本 块 b 中 由 于 给 相关 变量 赋值 而 被 注销 的 表达 式 集合 。 因 此 ， 定 义 在 出 
口 处 可 用 的 表达 式 集合 的 方程 是 : 

AvailOut(b) = Computed(b) y (Availln(b) - Killed(b)) 


同样 存在 全 路 径 的 后 向 数据 流 问 题 。 这 种 情况 的 一 个 较 好 的 例子 是 非常 已 表达 式 《very busy 
expression) 的 确定 。 如 果 一 个 表达 式 在 被 注销 前 其 值 在 所 有 路 径 上 均 被 使 用 ， 则 该 表达 式 是 非常 忙 的 。 
非常 忙 表达 式 是 寄存 器 分 配 的 主要 候选 ， 因 为 我 们 知道 它们 的 值 一 定 会 被 使 用 。“ 非 常 忙 ”的 分 析 也 可 
用 来 指导 代码 的 迁移 。 也 就 是 说 ， 如 果 在 一 个 循环 里 ， 循 环 不 变 式 是 “非常 忙 ”的 话 ， 那 么 我 们 可 能 愿 
意 将 此 表达 式 提 到 循环 的 首部 〈 假 定 循环 至 少 执行 一 次 迭代 )。 

设 VeryBusyOut(b) 是 那些 在 基本 块 b 结 尾 处 非常 忙 的 表达 式 集合 ， 且 设 VeryBusyin(b) 是 那些 在 基 
本 块 b 的 开始 处 非常 忙 的 表达 式 集合 。 于 是 有 : 

VeryBusyOut(b) = A VeryBusyin() 


我 们 假定 在 最 后 一 个 基本 块 出 口 处 没有 非常 忙 的 表达 式 。 

设 Used(b) 是 基本 块 b 中 那些 被 注销 前 使 用 的 所 有 表达 式 的 集合 ， 而 Kililed(b) 是 基本 块 b 中 那些 使 用 
前 被 注销 的 表达 式 集合 。 于 是 有 : | 

VeryBusyin(b) = Used(b) (J (VeryBusyOut(b) - Killed(b)) 


16.4.3 数据 流 问题 的 分 类 


如 我 们 所 见 ， 数 据 流 问 题 存在 着 很 清晰 的 分 类 。 每 个 基本 块 有 相应 的 In 和 Out 集合 。 对 于 前 向 访问 题 
而 言 ，Out 集 合 是 由 基本 块 中 的 In 集合 计算 得 到 ， 而 In 集合 则 由 前 驱 基 本 块 的 Out 集合 来 计算 。 类 似 地 ， 对 
后 向 流 问题 而 言 ，In 集 合 是 由 基本 块 中 的 Out 集合 计算 得 到 ， 而 Out 集合 则 由 后 继 基本 块 的 In 集合 来 计算 。 
在 基本 块 内 ， 根 据 问 题 是 后 向 流 问 题 还 是 前 向 流 问题 ， 可 用 下 面 的 方程 来 表示 In 和 Out 集 合 之 间 的 
关系 : | 

In(b) = Used(b) v. (Out(b) - Killed(b)) 或 

Out(b) = Used(b) \ (In(b) - Killed(b)) 

在 单 路 径 问 题 中 ， 将 计算 前 驱 或 后 继 值 的 并 集 ， 而 在 全 路 径 问 题 中 ， 将 计算 前 驱 或 后 继 值 的 交集 。 

最 后 ， 作 为 边界 条 件 ， 必 须 指 定 前 向 流 问 题 中 初始 基本 块 的 In 集 合 的 值 与 后 向 流 问题 中 结尾 基本 块 
的 Out 集 合 的 值 。 通 常 ， 根 据 求解 的 问题 ， 这 些 边 界 集合 不 是 被 设置 为 空 集 就 是 包含 所 有 可 能 的 值 。 

我 们 将 数据 流 分 析 的 一 般 模式 概括 在 图 16-23 中 的 表格 里 。 

前 向 流 [Ca 


Outib) = Gen(b) LU nlb) - Killed(b)) | nb) = Gen(b) _) (Out(b) - Killed(b)) 
In(b) - M Out(i) Out(b) = Y In(i) 


Out(b) = = Seni) U (inb) - Killed(b)) | In(b) = Genib) W (Out(b) - Killed(b)) 


全 路 径 | in(b) = (c Out(i) Out(b) = A In(i) 
ie P(b ie 


图 16-23 用 于 数据 流 分 析 的 方程 






















16.4.4 其 他 重要 的 数据 流 问 题 


在 本 节 中 ,我们 会 简要 地 考虑 一 些 其 他 数据 流 问 题 。 一 个 单 路 径 、 前 向 流 的 分 析 可 用 来 计算 到 达 定 
值 (reaching definition) 集合 。 定 值 也 就 是 给 基本 块 中 的 变量 赋值 。 一 个 变量 v 的 定 值 到 达 v 的 一 个 引用 ， 
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前 提 条 件 是 存在 一 条 从 这 个 v 的 定 值 到 v 的 引用 的 路 径 ， 且 此 路 径 上 没有 对 v 重 新 定 值 。 直 观 地 讲 ， 如 果 v 
的 定 值 到 达 v 的 引用 ， 那 么 那个 定 值 可 能 已 建立 了 我 们 即将 使 用 的 值 。 到 达 定 值 对 于 寄存 器 目标 分 配 很 
有 用 。 特 别 地 ， 为 最 小 化 寄存 器 拷贝 ， 我 们 很 希望 把 某 个 变量 能 到 达 相 同 引用 的 所 有 定 值 都 分 配 到 相同 
的 寄存 器 中 。 否 则 ， 该 变量 的 当前 值 就 可 能 会 存放 在 多 个 寄存 器 中 (而 我 们 将 可 能 不 得 不 从 它 的 内 存单 
元 中 装 人 其 值 )。 

到 达 定 值 在 常量 传播 中 也 很 有 用 。 如 果 到 达 特 定 引用 的 惟一 的 变量 定 值 涉 及 一 个 常量 的 赋值 ， 那 么 
该 引用 可 被 替换 为 那个 常量 值 。 

作为 示例 ， 考 虑 如 下 的 代码 片段 : 


在 最 后 一 条 语句 中 ，A 和 B 均 被 使 用 。 和 A 的 惟一 定 值 一 样 ，B 的 两 次 定 值 均 可 到 达 这 条 语句 。 因 为 
A 的 定 值 涉及 常量 赋值 ， 所 以 我 们 可 以 将 A 的 引用 赫 换 为 值 1。 类 似 地 ， 如 果 两 次 B 的 定 值 把 它们 的 值 放 
在 相同 的 寄存 器 中 ， 那 么 可 直接 在 那个 寄存 器 上 进行 加 1 操作 (假定 B 在 寄存 器 中 的 值 首先 要 保存 ， 如 果 
B 在 这 条 语句 后 是 活跃 的 )。 

作为 数据 流 问题 分 析 的 标准 ， 我 们 必须 形式 化 mn、Out、Gen 和 Kililed 集 合 的 定义 。In 和 Out 集 合 代 
表 可 到 达 基 本 块 块 首 与 块 尾 的 定 值 集合 。 这 些 集合 包含 那些 定义 变量 的 元 组 (或 树 ) 的 索引 (或 地 址 )。 
初始 基本 块 的 In 集合 为 空 。 基 本 块 的 Gen 集 合 包含 那些 在 基本 块 中 出 现 且 能 到 达 块 尾 的 定 值 。 如 果 基 本 
块 中 包含 相同 变量 的 多 个 定 值 ， 那 么 正常 情况 下 ， 只 有 最 后 一 个 定 值 可 以 到 达 块 尾 。 

对 于 每 个 在 基本 块 中 定义 的 变量 v，Killed 集 合 包含 了 v 的 其 他 所 有 不 在 Gen 集 合 中 的 定 值 。Killed 集 
合 “ 擦 除 ” 了 那些 被 基本 块 中 的 局 部 定 值 所 淘汰 的 定 值 。 

在 像 Pascal 和 Ada 那 样 的 语言 里 ， 由 于 子 程序 调用 和 别名 的 影响 ， 到 达 定 值 的 确定 将 非常 复杂 。 特 
别 是 我 们 在 进行 过 程 调用 或 给 别名 对 象 (数组 或 堆 对 象 ) 赋值 时 ， 一 个 变量 可 能 被 定义 也 可 能 不 被 定义 。 
由 于 不 清楚 它们 是 否 会 实际 被 赋值 ， 故 而 我 们 称 这 些 定 值 为 二 义 性 的 (ambiguous )。 而 那些 在 基本 块 中 
对 变量 的 显 式 定 值 则 是 无 二 义 的 (unambiguous )。 基 本 块 中 的 二 义 性 定 值 包含 在 Gen 集 合 中 ， 但 它们 不 
会 注销 其 他 的 定 值 ， 因 此 对 Killed 和 集合 没有 影响 。 实 际 上， 它们 添加 可 能 的 新 定 值 但 是 绝 不 会 像 无 二 义 
定 值 那样 删除 定 值 。 

到 达 定 值 有 时 被 编码 在 称 为 ud- 链 (use-definition chain) 的 数据 结构 里 。 尽 管 它 的 名 字 如 此 ， 但 ud- 链 
却 是 和 变量 每 次 使 用 相关 联 的 到 达 定 值 集合 。 我 们 在 优化 前 收集 此 信息 并 把 它 用 在 优化 和 代码 生成 阶段 。 

和 ud- 链 同属 一 类 的 还 有 du- 链 (definition-use chain)。du- 链 是 和 每 个 变量 定 值 相关 联 的 变量 使 用 情 
况 的 集合 。 也 就 是 说 ，du- 链 可 使 我 们 找到 在 基本 块 中 的 特定 点 可 能 使 用 该 值 给 某 个 变量 赋值 的 所 有 元 
组 (或 树 )。du- 链 可 被 用 于 多 种 用 途 ， 包 括 寄存 器 目标 分 配 。 

du- 链 可 采用 单 路 径 、 后 向 流 分 析 计算 得 到 ， 这 类 似 于 计算 活跃 变量 的 方法 。In 和 Out 集合 代表 着 那 
些 可 能 使 用 变量 当前 值 的 元 组 (或 树 )。 结 尾 基 本 块 的 Out 集合 为 空 集 。Gen(b) 是 那些 在 基本 块 b 中 在 定 
义 变 量 前 使 用 那个 变量 的 元 组 集合 。Killed(b) 是 那些 可 以 使 用 定义 在 基本 块 b 中 的 变量 的 元 组 集合 。 

流 分 析 还 可 用 来 确定 复写 传播 (copy propagation) 的 可 能 性 。 有 时 ， 针 对 A:=B 形 式 的 拷贝 语句 ， 
我 们 可 以 通过 将 A 的 引用 替换 为 B 而 删除 该 语句 。( 我 们 在 15.4.3 节 的 寄存 器 指派 算法 中 这 样 做 过 。) 如 果 
在 使 用 A 的 某 个 地 方 ， 我 们 能 确定 A := B 是 公共 子 表 达 式 ( 即 ， 是 元 余 的 )， 那 么 对 A 的 引用 可 赫 换 为 B。 
如 果 对 A 的 所 有 引用 都 被 替换 为 B， 那 么 A 就 成 了 非 活 跃 的 且 那 个 赋值 语句 可 被 删除 。 
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对 A 的 引用 可 被 替换 为 B， 条 件 1 是 A := B 是 到 达 A 的 引用 的 惟一 的 定 值 (ud- 链 可 用 来 做 此 项 检查 )， 
而 条 件 2 是 在 该 赋值 语句 执行 后 没有 出 现 对 B 的 重新 赋值 。 后 一 个 条 件 可 以 通过 一 个 全 路 径 、 前 向 流 分 析 
来 检查 。 设 In(b) 是 那些 已 执行 完 且 随后 其 左边 或 右边 变量 都 没有 被 再 赋值 的 拷贝 语句 的 集合 。 在 In(b) 中 
的 拷贝 语句 是 复写 传播 的 候选 。 可 类 似 定义 Out(b)。 初 始 基本 块 的 In 集合 为 空 。 | 
Gen(b) 是 基本 块 b 中 的 拷贝 语句 的 集合 ， 这 些 拷贝 语句 的 左边 或 右边 变量 其 后 在 基本 块 中 未 被 重新 
定 值 。Killed(b) 是 那些 不 在 基本 块 b 中 的 拷贝 语句 的 集合 ， 同 时 这 些 语句 的 左边 或 右边 的 变量 却 在 基本 
块 b 中 赋值 。 | 
作为 示例 ， 芳 虑 : 
A := D; 
if A-B then 
B:-1; 
else 
C :=1; 
end if; 
A := A+B; 
拷贝 语句 A := DD 可 到 达 比 较 操 作 A=B 和 加 法 操作 A+B。 因 为 A 或 D 均 没有 在 使 用 前 被 再 赋值 ， 所 以 复 写 传 
播 是 可 能 的 。 此 外 ， 通 过 参考 A:=D 的 du- 链 ， 得 知 A 只 在 两 个 地 方 使 用 ， 而 这 两 个 地 方 我 们 都 准备 将 其 
替换 为 D。 这 项 修改 把 A 的 引用 次 数 减少 到 零 ， 使 得 该 赋值 语句 成 为 多 余 的 语句 。 我 们 因此 得 到 : 
if D-B then l | 
B:z1; 
else C:- 1; 


end if; 
A := D+B; 


16.4.5 使 用 数据 流 信 息 的 全 局 优化 


在 这 一 节 里 ,我 们 会 简要 地 考虑 如 何 实际 使 用 那些 通过 数据 流 分 析 收 集 的 信息 来 实现 各 种 全 局 优化 。 
我 们 不 打算 讨论 所 有 可 能 施行 的 优化 一 一 那 太 多 了 1! AAR, 我 们 将 说 明 在 控制 代码 迁移 或 删除 时 如 何 使 
用 由 数据 流 分 析 提 供 的 数据 。 | 

在 图 16-24 所 示 的 表格 里 ， 我 们 对 已 研究 过 的 数据 流 分 析 按 照 它 们 的 流 方向 、 路 径 形 式 〈 全 路 径 或 
单 路 径 ) 以 及 初始 条 件 进 行 了 分 类 。 前 向 流 问题 中 的 初始 条 件 定义 第 一 个 基本 块 的 In 集合 ; 而 后 同 流 间 
题 的 初始 条 件 则 定义 了 最 后 一 个 基本 块 的 Out 集 合 。 正 常情 况 下 ， 这 些 集合 的 初 值 不 是 空 集 (O) 就 是 
全 集 ( 即 包含 所 有 可 能 的 值 )。 | 

使 用 这 些 信息 ， 每 一 种 数据 流 分 析 可 以 按 需 施行 。 接 下 来 的 问题 是 何 时 施行 这 些 分 析 以 及 如 何 使 用 
收集 到 的 信息 。 在 下 面 的 各 小 节 里 ， 针 对 我 们 已 研究 的 每 一 个 数据 流 问 题 ， 我 们 将 逐一 关注 这 些 问题 。 


前 向 流 
| mm ë| 初始 从 | 问题 | wie 


初始 值 
到 达 定 值 (ud- 链 ) © 活跃 变量 Ø 
所 有 变量 due ? 
















未 初始 化 的 变量 


Jj nf Hx X eo lER M 
| 图 16-24 全 局 优化 和 相应 的 数据 流 分 析 


非常 忙 表达 式 | 
如 16.3.1 节 所 示 ， 非常 忙 的 循环 不 变 式 可 作为 从 循环 体 中 进行 代码 迁移 的 最 佳 候选 。 循环 不 变 式 可 以 
被 安全 地 从 循环 体 中 移出 。 由 于 非常 忙 循环 不 变 式 总 要 在 循环 中 使 用 ， 因 此 将 它们 的 计算 放置 在 循环 首部 
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也 是 有 利 的 。 可 按 图 16-25 所 示 修 改 16.3.1 节 中 的 factor_invariants( ) 例 程 。 现 在 ， 虽 然 该 例 程 满 足 了 
“寻找 非常 忙 表 达 式 的 要 求 ， 但 它 却 更 加 复杂 了 。 尽 管 如 此 ， 现 在 那些 被 外 提 的 不 变 式 都 确实 能 保证 其 迁移 
是 有 利 可 图 的 。 

有 时 在 多 个 基本 块 中 计算 的 代码 可 以 被 移 到 那些 基本 块 的 共同 祖先 〈 基 本 块 ) 中 。 这 种 优化 称 为 代 
码 提升 (code hoisting) ; 它 节省 了 空间 ， 方法 是 一 个 表达 式 只 在 祖先 基本 块 中 计算 一 次 而 不 是 在 不 同 
的 后 继 基本 块 中 计算 多 次 。 例 如 ， 在 下 面 程序 片段 中 ， 


if 1 = 1 then 
A(I) := O; 


else 
A(I) := 1/(I-1); 
nd if, | 
A(l) 的 计算 可 被 提升 到 if 语句 的 首部 。 


void factor very busy invariants(loop L) 
{ 
/* 
* Find very busy expressions invariant in loop L 
* and move their calculation outside the loop body. 
*j . 


mark invariants(L); 
Compute VeryBusyInvariants, the set of marked 
expressions that are very busy at L's header. 


for (each expression E in VeryBusyInvariants) i 
Allocate a new temporary T; 
Replace each occurrence of E in L with T; 
Insert T := E in L's header code immediately 

after the first loop termination test, 

/* 

* If L must iterate at least once 


* T := E may be placed immediately before L. 
*/ 





图 16-25 外 提 非 常 忙 循环 不 变 式 的 算法 


只 有 非常 忙 表达 式 才 应 该 被 提升 ; 否则 ， 表 达 式 的 计算 可 能 是 不 必要 的 。 但 我 们 如 何 定位 那些 可 作 
为 代码 提升 的 目标 基本 块 呢 ? 一 般 来 说 ， 我 们 称 基本 块 b 支 配 (dominate) 基本 块 集合 S， 前 提 条 件 是 到 
S 中 基本 块 的 所 有 路 径 都 必须 经 过 b。 因 为 b 是 S 中 基本 块 必 然 的 前 驱 ， 所 以 它 是 存放 可 能 从 S 中 提升 出 的 
代码 的 较 好 的 目标 选择 。 已 知 有 计算 任意 流 图 中 支配 ( 必 经 ) 结 点 的 算法 〈 参 见 练习 24)， 但 是 像 Pascal 
和 Ada 那 样 结构 化 的 语言 提供 了 非常 适合 做 代码 提升 的 条 件 执行 结构 (ficase t). Fali, Eifin 
case 语 句 的 首部 将 支配 其 语句 体 中 的 所 有 语句 。 图 16-26 中 的 code_hoist( ) 例 程 利用 条 件 语 句 的 结构 
来 识别 和 提升 表达 式 。 因 为 计 和 case 语 句 可 以 贬 套 ， 所 以 应 当 按 由 内 到 外 的 方式 使 用 code_hoist()， 
以 便 代码 从 内 层 侯 套 结构 提升 到 它 的 外 层 包围 结构 里 。 
全 局 公共 子 表 达 式 删除 

在 15.4.2 节 里 ， 我 们 研究 了 局 部 公共 子 表达 式 (CSE) 的 删除 问题 。 特 别 是 在 我 们 看 到 基本 块 b 中 不 
止 一 次 计算 表达 式 E 时 ， 那 些 完 余 的 计算 将 被 识别 并 删除 。 在 只 施行 局 部 优化 时 ， 表达 式 在 基本 块 中 的 
第 一 次 计算 决 不 会 元 余 。 然 而 ， 在 施行 全 局 优化 时 ， 如 果 基 本 块 中 表达 式 已 被 该 基本 块 的 前 驱 基 本 块 计 
算 过 ， 则 这 个 表达 式 的 首次 计算 可 能 会 元 余 。 图 16-27 中 的 算法 remove_global cses( ) 将 识别 并 删除 
基本 块 中 宛 余 的 表达 式 首 次 计算 。 我 们 假定 基本 块 中 后 面 的 元 余 计算 已 被 局 部 CSE 优 化 所 删除 。 每 个 识 
别 为 全 局 CSE 的 表达 式 被 分 配 一 个 保存 其 值 并 可 穿越 基本 块 的 临时 变量 (多数 情况 下 这 将 是 一 个 存储 型 
临时 变量 )。 
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void code_hoist (conditional statement C) 
{ 


/* 
* Find very busy expressions in C 
. * and hoist them to the header of C.. 


*/ 


Compute VeryBusy, the set of expressions in C’s body 
that are very busy at C’s header. 


for (each expression E in VeryBusy) ( 
Allocate a new temporary T; 
Replace each occurrence of E in C with T; 
Insert T := E immediately before C; 





图 16-26 提升 条 件 语句 中 非常 忙 表 达 式 的 算法 


| void remove global cses (void) 
{ 
/* 
* Find redundant initial calculations 
* of CSEs in basic blocks and remove them. 


*/ 


Compute GlobalCSEs, the set of expressions that 
are computed in more than one basic block; 


/* 
* Recall each expression is hashed to a unique 
* result temp, so potential CSEs are easy to 
* identify. | 
*/ 


for (each expression E in GlobalCSEs) { 
Do an available expression data flow 
analysis for E; 
Assign a temporary location, temp loc(E), to E; 
} 


for (each basic block B) { 
for (each expression E in GlobalCSEs) { 
if (E is computed in B 
&& E is available on entrance to B) ( 
Remove the first calculation of E in B 
and replace it with a reference 
to temp loc (E); 





图 16-27 删除 CSE 和 元 余 初 始 计算 的 程序 


活跃 变量 分 析 | 

活跃 变量 的 值 必须 在 基本 块 结尾 加 以 保存 ; 而 非 活跃 变量 的 值 则 无 需 保 存 。 类 似 地 ， 如 果 施 行 全 局 
CSE 删 除 ， 那 么 在 基本 块 之 间 的 CSE 的 值 有 时 必须 要 加 以 保存 。 特 别 地 ， 如 果 将 保存 CSE 值 的 位 置 看 作 
变量 ， 那 么 在 这 些 位 置 活跃 时 必须 要 保存 CSE 的 值 。 

定义 在 图 16-28 中 的 remove_dead_stores () 例 程 寻找 那些 存储 非 活跃 变量 的 指令 并 删除 它们 。 


未 初始 化 变量 分 析 | 

tikaka h, UMA IER ERA. — HORS GUASIOAE E, SSA 
告 信息 ， 或 生成 运行 时 检查 以 发 现 对 未 初始 化 变量 的 非法 引用 。 定 义 在 图 16-29 中 的 
find uninitialized_vars() 例 程 寻找 未 初始 化 变量 的 可 能 使 用 并 发 出 编译 器 警告 或 生成 代码 来 丛 测 
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对 未 初始 化 变量 的 非法 引用 。 


void remove dead stores (void) 
{ 
/* 
* Find unnecessary stores of dead variables 
* and global CSEs in basic blocks and remove them. 
*/ 


for (each basic block B) { 
for (each V that is a variable or 
global CSE location) I 


if (a store into V follows all references 
to V in B) { . 
Perform a live variable analysis for V; 
if (V is not live on exit from B) { 
Remove the store of V from B; 





图 16-28 删除 非 活跃 变量 存储 的 算法 


« void find uninitialized vars (void) 


{ 
/* Find possible uses of uninitialized variables. */ 


Perform an uninitialized variable data flow analysis 
for (each basic block B) { 
for (each use of a variable V in B) { 
if ( (this is the first use of V in B 
&& V is uninitialized on entrance to B) 
| instructions since the last use of V may 
have made V uninitialized) { 


Issue a warning that V may be uninitialized 
or generate code to check that V is 
properly initialized 





图 16-29 寻找 未 初始 化 变量 的 可 能 使 用 的 算法 


常量 传播 和 复写 拷贝 | 

通常 ， 对 编译 器 而 言 ， 若 能 知道 变量 在 程序 中 的 某 一 点 含有 特定 的 值 将 非常 有 用 。 这 将 允许 用 这 个 
已 知 值 来 替换 该 变量 ， 其 效果 就 像 是 把 该 变量 当 作 有 名 常量 一 样 。 这 种 优化 称 为 常量 传播 (constant 
propagation ), 它 在 像 FORTRAN 这 样 没有 有 名 常量 的 语言 中 特别 有 用 。 然而 ， 即 使 在 那些 包含 有 名 常量 
的 语言 里 ， 常 量 传播 仍 可 以 改进 代码 质量 ,方法 是 给 变量 赋值 为 常量 后 就 立即 引用 这 个 变量 《例如 ， 
A := 100; B := B+A;). 

如 16.3.2 节 所 述 ， 复 写 传播 利用 了 在 某 些 情况 下 存在 的 事实 ， 即 ， 在 形式 为 X := Y 的 赋值 语句 后 ， 
对 X 的 引用 可 能 被 替换 为 对 Y 的 引用 。 这 种 修改 可 能 允许 删除 该 赋值 ， 其 至 允许 删除 整个 X。 很 明显 ， 常 
量 传播 是 复写 传播 的 特例 。 | 

图 16-30 中 的 算法 propagate() 识 别 可 施行 常量 传播 和 复写 传播 的 情况 。 如 果 可 能 ， 我 们 应 当 简 化 
表达 式 以 便 发 现 新 的 优化 机 会 。 
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void propagate (void) 
{ 
/* 
* Propagate constant and variable assignments and 
* simplify resulting expressions. 


*/ 





Perform a reaching definition data flow analysis; 
Perform a du-chain data flow analysis: 
Perform a copy propagation data flow analysis; 


Mark all uses of variables in the program; 


for (each marked use of a variable V) ( 
Unmark this use of V; 
if (the only definition of V that reaches this use 
of V is V := C, where C is a constant) { 
Replace this use of V with C and . 
try to simplify the resulting expression: 
if (this substitution and simplification 
creates a constant assignment X := K) I 
Replace the original assignment with X := K; 
Mark all uses of X that this 
assignment reaches; 
) 
Remove this use of V from the du-chain of V := C; 
) eise if (the copy propagation analysis shows that 
the only definition of V that reaches this 
use of V is V :='X, where X is a variable) | 
Replace this use of V with X; 
Remove this use of V from the du-chain of V := X; 




















) 
) 


for (each definition of a variable V) 
if (all uses of this definition have been removed by 
constant or copy propagation) 

Remove this definition from the program; 






for (each variable V) 
if (all uses of this variable have been removed) 
Remove this variable from the program; 


图 16-30 施行 常量 传播 和 复写 传播 的 算法 


16.4.6 求解 数据 流 方程 


我 们 现在 讨论 前 几 节 中 所 提出 的 数据 流 方程 的 求解 问题 。 人 们 已 经 研究 出 了 多 种 求解 方法 。 而 我 们 
将 详细 考察 其 中 的 两 种 。 第 一 种 是 迄 代 法 ， 该 方法 计算 近似 解 直 到 收敛 为 止 。 第 二 种 方法 则 利用 了 现代 
程序 设计 语言 的 流 图 是 结构 化 的 事实 、 因 为 这 样 的 流 图 就 是 从 语言 中 结构 化 的 部 件 ( 如 条 件 和 循环 语句 ) 
推导 而 来 的 。 从 基本 块 的 方程 开始 ， 第 二 种 方法 递归 地 构造 语言 结构 化 部 件 的 方程 直到 整个 程序 或 子 程 
序 的 单个 方程 构造 完毕 为 止 。 然 后 它 使 用 初始 条 件 来 求解 。 
迭代 法 | | 

我 们 的 数据 流 问 题 是 用 集合 来 形式 化 的 ， 因 此 ， 首 要 的 问题 是 为 数据 流 方 程 中 出 现 的 集合 及 其 操作 
(并 、 交 和 差 ) 寻找 一 种 紧凑 而 有 效 的 实现 方法 。 

位 向 量 是 表示 集合 的 一 种 好 方法 。 向 量 中 包含 与 集合 中 每 个 可 能 的 对 象 相对 应 的 位 。 位 为 1 表示 存 
在 相应 对 象 ， 位 为 0 则 表示 相应 对 象 不 存在 。 事 实 上 ， 这 种 表示 法 在 Pascal 中 常用 来 表示 集合 。 

集合 操作 完美 地 对 应 于 位 向 量 上 的 布尔 运算 。 集合 的 并 与 交 操 作 分 别 对 应 着 位 模式 的 “或 运算 
(C 中 的 1 操作 符 ) 和 “与 运算 ”(C 中 的 & 操作 符 )。 集 合 的 差 操 作 A-B 对 应 (va & (~ Vb))， 其 中 ，Va 和 








$ A ft ft | | 403 





Vb 分 别 是 表示 A 和 B 的 位 问 量 。 | 
连接 相同 基本 块 的 In 和 Out 集 合 的 基本 数据 流 方程 ， 根 据 所 分 析 的 问题 方向 不 同 CU IE AE TIA) ) 
通常 总 具有 如 下 形式 : | 

In(b) = Gen(b) (J (Out(b) - Killed(b)) 或 Out(b) = Gen(b) ( (In(b) - Kitled(b)) 
因为 Gen(b) 和 Killed(b) 是 由 基本 块 b 中 的 语句 所 决定 的 常量 ， 因此 我 们 重 写 这 些 方 程 如 下 : 

In(b) = F,(Out(b)) 或 Out(b) = Fb(In(b)) 

其 中 ，F, 是 与 基本 块 b 对 应 的 函数 ， 它 把 Out 集合 映射 为 In 集合 (或 把 In 集合 映射 为 Dut 集 合 )， 

对 每 个 In(b) 和 Out(b) 集 合 ， 设 Ini(b) 和 Out;(b) 是 期 望 解 的 第 i 次 近似 。 我 们 的 算法 将 一 直 笑 代 到 收敛 
为 止 一 一 即 ， 我 们 到 达 第 i 次 迭代 ， 其 中 对 每 个 基本 块 b 均 有 Ini(b) = In(b) 且 Outi(b) = Out(b). 

这 里 我 们 仅 关注 前 向 流 问 题 ， 至 于 后 向 流 可 以 对 称 地 芳 虑 。 我 们 首先 定义 ino 集 合 的 值 。 对 于 第 一 
个 基本 块 (我 们 称 之 为 基本 块 0)， 该 集合 将 事先 给 出 。 在 前 向 流 问 题 中 ， 对 所 有 的 i，Ini(0) = In(O) (Bil, 
我 们 每 次 开始 于 In(0) 的 正确 值 )。 

对 单 路 径 问 题 而 言 ， 其 他 的 Ino 集 合 被 初始 化 为 B。 其 理由 是 ， 在 单 路 径 问 题 里 ， 我 们 使 用 集合 的 并 
运算 来 合并 前 驱 的 值 ， 而 8 对 集合 的 并 运算 是 恒 等 值 (对 所 有 的 S,，S U8 = S). 通过 以 @ 值 开始 ， 我 
们 确保 了 迭代 中 不 会 出 现 不 期 望 〈 或 不 想 要 的 ) 的 值 。 

HARME., ngA (不同 于 Ino(0)) 将 被 初始 化 为 U ， 即 包含 所 有 可 能 值 的 全 业 。 针对 全 路 径 
问题 , 我 们 使 用 集合 的 交 运 算 来 合并 前 驱 的 值 , 而 U 寺 集合 的 交 运 算是 恒 等 值 (对 所 有 S, S N U=S). 
通过 从 U 值 开始 ， 我 们 确保 了 过 代 中 不 会 圣 失 任何 正确 的 值 。 在 定义 Ino 的 值 以 后 ， 我 们 只 是 简单 地 进 
” 行 迭 代 直 至 收敛 为 止 ， 迭代 算法 如 图 16-31 所 示 。 


Initialize all In, sets; 
i = 0; 


do { 
for (each basic block b) 
Out, (b) = F, (In, (b)) 


for (each basic block b) { 
if (this is an any-path problem) 
Inj. (b) = w Out, (3) 
je? (b) 
else  /* Must be an all paths problem. */ 
Inii (b) = (Y Out, (3) 
jeP (b) 
) 
i += 1; 
) while (there is at least one block b 
for which In, (b) + TIn; (b)); 





图 16-31 和 迭代 计算 In 集合 的 算法 
作为 示例 ， 考 虑 图 16-32 中 的 程序 片段 ， 该 程 


Read(Limit); 
序 读 入 一 系列 数字 并 求 和 。 相 应 的 程序 流 图 如 图 for lin d Limit loop — 
16-33 所 示 。 if i-1 then 

我 们 将 进行 未 初始 化 变量 的 分 析 。In 和 Out 集 se 
合 表示 那些 可 能 未 初始 化 的 变量 。Killed 集 合 表示 ond = Sums 
那些 通过 给 它们 值 而 被 注销 的 未 初始 化 变量 ，Gen end loop: 


Write(Sum); 





集合 是 那些 成 为 未 初始 化 的 变量 集合 。 在 这 个 例子 | | 
中 ， 这 种 情况 只 出 现在 for loop 结束 后 ， 此 时 循环 图 16-32 读数 并 求 和 的 程序 
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索引 变 成 未 初始 化 的 (在 Ada 语 言 里 ， 此 时 索引 也 是 不 可 访问 的 )。 对 每 个 基本 块 ， 我 们 有 : 
| bO jbi|be| b3 | b4 [bs |bé 
[Gen | 2 jO,0| Ø | [Oo [0 
[Killed | (Limit) | Ø | (Jj | (Sum | (Sum | (h | 2 
TERI, Ino(bO) = {Limit,1,J,Sum}， 其 他 的 In 集 合 为 空 集 (这 是 一 个 单 路 径 问 题 )。 接 着 ， 
我 们 使 用 规则 Out=(in-Killed) U Gen， 由 In 集合 计算 Out 集合 。 此 时 有 : 
b1 | b2 | b3 | b4 | b5 | b6 


oo [| bo 
[ing | (Limt,JSum | 2 | O | OG | © | O | O | 
[Ou, | (JSum | S| O | S| SO] SO | n 


bo 
Read(Limit) 


|, b! 





L b6 
[Write(Sum) 
图 16-33 图 16-32 中 程序 的 流 图 
通过 合并 前 驱 基本 块 的 Outo 值 ， 我 们 计算 得 到 In 值 的 下 次 近似 值 Ini。 然 后 再 从 Im 计算 Out 





(5 | 
[Limit,l,J, Sum) 
我 们 继续 迭代 : 
ys [b I*5| 56 | 
Hn; [iUmkiLSumy | WSumy | Sum | 2 | 2 | 2 | Q.Sum] 
Out | Sum TSum | (Sum) | 2 | 2 | 2 | Sum 
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[ee 
Hn, | tums Sumy | [J.Sum] | Sum) | (Sumy 
Ou, | (Sum | Sumy | (Sum | 2 | 
(SAXIS. PURSE EISE. | 

ie BP ORC ^ Vr ER ELLE 206 15: HH] gd 38 3€ — — Be 4E VE HU IE RB FR FER ARA! — ER. 正常 情况 下 ， 我 






们 希望 所 有 变量 使 用 前 有 定义 。 然而，Sum € in(b6) 且 b6 中 要 使 用 Sum。 这 个 程序 可 能 是 在 循环 至 少 ， 


会 迭代 一 次 的 假设 下 编写 的 ， 因 为 那样 的 话 ， 就 可 以 保证 Sum 在 输出 前 (使 用 前 ) 已 被 定义 。 然 而 ,在 
Pascal 和 Ada 语 言 里 ， 循 环 可 以 选 代 零 次 ， 而 这 种 情况 下 ， 正 如 我 们 分 析 所 发 现 的 ， 可 能 导致 企图 输出 
一 个 未 定义 的 Sum 值 。 

我 们 的 分 析 也 警告 我 们 :Sum 在 b4 入 口 处 是 潜在 未 初始 化 的 。 然 而 ， 这 是 一 个 “ 误 报 ”"， 它 是 由 于 
我 们 的 分 析 没 有 办 法 识别 b4 将 只 能 在 (前 一 次 达 代 中 的 ) b3 执 行 后 才 可 进入 ， 而 这 一 点 却 保证 了 Sum 
被 正确 初始 化 。 

不 难看 见 ， 如 果 我 们 的 迭代 算法 终止 运行 ， 它 将 产生 正确 的 解 。 此 结论 基于 这 样 的 事实 : 在 算法 终 
止 时 ， 所 有 的 数据 流 方程 均 被 满足 。 此 时 尚 不 清楚 的 是 算法 是 否 一 定 总 会 终止 。 即 使 它 会 终止 ， 其 收敛 
速度 是 否 慢 得 难以 接受 呢 ? | 

所 幸 的 是 ， 我 们 并 未 发 现 这 些 令 人 担心 的 情况 。 我 们 的 迭代 算法 总 是 在 合理 的 时 间 内 产生 解 。 首 先 
考虑 算法 的 终止 。 我 们 知道 计算 Out 值 的 函数 Fo 的 形式 为 : Fu=(In(b)-Killed(b)) UU. Gen(b)。 因 为 
Kilied(b) 和 Gen(b) 均 为 常量 ， 所 以 易 知 函数 Fb 是 单调 的 (monotonic)。 即 ， 如 果 st S sz， 那 么 Fe (si) 
C F, (So). | 

对 于 单 路 径 问题 ，InnO - c9 Oui = v) In). 我 们 知道 其 中 的 函数 F 是 单调 的 ， 而 且 集 
合 的 并 运算 也 是 单调 的 。 设 In 是 所 有 基本 块 b 的 Ini(b) 值 的 向 量 。 我 们 说 Ini = lm， 条 件 对 所 有 基本 块 b， 
满足 Ini(b) Ini(b)。 这 意味 着 : 一 个 集合 向 量 包含 在 另 一 个 集合 向 量 中 ， 如 果 它 的 每 一 个 集合 成 员 是 
另 一 个 集合 向 量 中 对 应 集合 成 员 的 子 集 。 | 

PLE ST EUR SE BUILD 2; BE Ali. (b) = G (In), HP Go = Ly Fin). 函数 F 和 集合 的 并 


运算 都 是 单调 的 ， 因 此 函数 G 也 是 单调 的 。 这 意 昧 着 : 如 果 in; = in， 那么 对 任意 的 基本 块 bp，Gb (In) 


€ Gulln,)。 这 是 问题 的 关键 所 在 ， 而 其 他 的 都 好 解决 。 

流 分 析 的 初始 化 规则 告诉 我 们 : Ino (b0) 是 事先 提供 的 ， 而 其 他 基本 块 的 Ino(b)= 马 。 因 为 Ino (b0) = 
In(bO), Eun, = in. KERE: 在 第 一 次 迭代 以 后 我 们 可 能 已 向 In 集 合 中 添加 了 值 ， 但 我 们 确实 没 
有 删除 任何 值 。 现 在 ， 我 们 利用 函数 Ge 的 单调 特征 。 对 任意 基本 块 b，In (b) = Gu (Ino), In; (b) = Gp 
(In )。 因 为 In。c In;， 我 们 得 出 Im (b) & In. (b)。 此 关系 对 所 有 的 基本 块 均 成 立 ; Ale, In, = Ino. 
在 第 二 次 迭代 后 ， 我 们 可 能 又 在 相关 集合 中 添加 了 某 些 值 而 同时 又 没有 删除 任何 值 。 按 此 归纳 ， 我 们 得 
Hing = In, & In2…。 | 

Ai Vo PORE E LR BR. BAI. Inf& & ANE ARRAY, BEATA RE CPR HK n 
值 。 最 终 我 们 到 达 某 一 点 ， 那 里 In = Inw1， 且 在 这 一 点 算法 终止 并 获得 解 。 事 实 上 ， 在 练习 27 中 ， 我 们 
将 证 明 此 时 获得 的 解 是 最 小 解 (minimal solution)。 这 意味 着 : 如 果 存 在 两 个 不 同 的 解 ( 如 ，In 是 我 们 
算法 求 得 的 解 ， 而 In' 是 其 他 算法 求 得 的 一 个 有 效 解 )， 那 么 有 In C In', SRO, REL AS 
获得 最 小 解 ， 因 为 它 仅 包含 着 可 从 初始 的 In 集合 以 及 从 各 基本 块 的 Gen 和 Killed 集 合 推导 出 的 数据 ， 0 
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对 全 路 径 问题 而 言 ， 我 们 的 算法 再 一 次 展示 了 其 单调 特征 。 我 们 从 预先 提供 的 Ino(b0) = In(b0) 以 及 
(针对 其 他 块 的 Ino (b) =U 开始 。 现 在， 我 们 在 选 代 时 单调 地 删除 集合 中 的 值 ， 而 且 以 后 也 决 不 会 再 恢复 
它们 。 这 意味 着 : 我 们 到 in 的 近似 解 序列 将 满足 Ine 2 In, Din, … 的 关系 。 再 者 ， 因 为 In 集合 为 有 限 集 ， 
所 以 我 们 的 算法 最 终 一 定 会 终止 并 求 得 最 大 解 (maximal solution )。 最 大 解 包 含 了 任何 其 他 的 解 。 对 全 
路 径 问题 来 说 ， 可 能 希望 获得 最 大 解 ， 因 为 我 们 开始 于 所 有 可 能 值 并 删除 了 那些 不 在 所 有 路 径 上 出 现 的 
值 。 我 们 希望 保留 那些 与 所 有 路 径 一 致 的 值 一 一 即 ， 那 些 满足 最 大 解 的 值 。 

现在 ， 我 们 估 测 数据 流 分 析 要 花 多 长 时 间 来 分 析 计算 一 个 带 有 B 个 基本 块 以 及 包含 V 个 值 的 In 和 Out 
集合 的 程序 或 子 程序 。 在 每 次 选 代 中 ， 对 每 个 基本 块 ， 我 们 从 In 集合 来 计算 Out 集合 (或 反之 )。 每 个 基 
本 块 维持 一 个 长 度 为 V 的 位 向 晤 其 时 间 复 杂 度 为 O(V)。 而 对 所 有 B 个 基本 块 ， 其 时 间 为 O(B x V). R 
们 还 必须 传播 In 或 Out 集合 到 前 驱 或 后 继 。 此 项 传播 时 间 取 决 于 前 驱 或 后 继 的 数目 。 该 数目 可 变 ， 但 平 
均 而 言 ， 它 是 一 个 不 大 的 常量 。 因 此 ， 用 于 传播 值 的 时 间 正 比 于 V 且 对 B 个 基本 块 而 言 ， 它 是 O(B x V). 

为 估 测 收敛 所 需 的 迭代 次 数 ， 最 重要 的 是 娄 认 清 In 和 Out 集 合 中 不 同 值 是 各 自 独立 的 。 即 ， 如 果 我 
们 正 维持 一 个 有 V 个 值 的 集合 ， 那 么 我 们 可 以 实际 平行 地 做 V 次 不 同 的 数据 流 分 析 。 如 果 我 们 为 单个 值 
做 数据 流 分 析 (可 能 是 活跃 变量 或 可 用 表达 式 分 析 )， 那 么 我 们 所 建立 的 单调 性 质 将 要 求 不 超过 B 次 的 和 挝 
代 ， 这 是 因为 每 次 迭代 时 至 少 有 一 个 值 要 改变 。 又 因为 值 是 相互 独立 的 ， 而 V>1 个 值 不 会 改变 迭代 次 数 
的 范围 ， 所 以 金 部 分 析 时 间 不 应 当 多 于 O(B? x V). | 

实践 中 ，B 可 能 不 会 超过 1 000， 甚 至 更 少 ( 子 程序 往往 是 独立 分 析 的 )。V 值 大 约 在 100 左 右 。 开 
销 常量 应 当 不 大 ， 因 为 我 们 做 的 大 多 数 操作 是 位 操作 ， 而 且 这 些 操作 也 是 按 字 完成 的 每 个 操作 处 理 16 
个 或 32 个 值 ， 共 计 处 理 值 1000? x 100 = 108)。 假 定 处 理 每 个 值 需要 10 微 秒 时 间 〈 记 住 ， 我 们 平行 地 处 
理 16 个 或 32 个 值 )， 那 么 分 析 总 时 间 将 限定 在 1 000 秒 内 ， 这 个 时 间 虽 不 短 但 还 可 以 接受 。 我 们 迭代 B 次 
的 估 测 可 能 过 高 了 ( 它 假定 每 个 基本 块 都 将 影响 其 他 的 每 一 个 基本 块 )， 因 此 ， 几 百 秒 才 是 一 个 更 合理 
的 上 界 。 

另 一 种 求解 流 问题 的 方法 (Cocke 1970) 是 将 一 个 大 的 流 图 拆 成 许多 称 为 区 间 (interval) 的 子 图 
(它们 往往 对 应 于 程序 中 的 循环 )。 然 后 单独 分 析 各 个 子 图 ， 并 在 处 理 完成 后 ， 将 整个 子 图 作为 包含 它 的 
大 图 中 的 一 个 结 点 。 在 分 析 过 程 中 ,首先 处 理 的 是 内 层 循环 ， 其 次 是 包围 它 的 外 层 循 环 ， 依 此 类 推 。 该 
方法 计算 的 优势 来 自 于 以 下 事实 : 将 非 线性 的 算法 用 于 许多 小 的 问题 比 直接 用 在 大 的 问题 上 要 便宜 得 多 。 
使 用 我 们 对 O(Bz x V) 的 估 测 ， 如 果 将 图 拆 成 大 小 分 别 为 B/2 的 两 部 分 ， 那 么 每 个 子 问题 的 时 间 成 本 减少 
1/4， 币 总 时 间 将 减少 12。 如 果 将 图 再 拆 成 许多 更 小 的 块 ， 则 可 能 带 来 更 多 的 时 间 节 省 。 在 下 面 的 讨论 


中 ， 我 们 考虑 一 个 结构 化 的 数据 流 分 析 技术 ， 它 利用 了 以 下 事实 : 在 现代 程序 设计 语言 《如 Ada 和 


Pascal) 中 ,语言 的 结构 化 的 控制 部 件 可 导致 程序 流 图 的 自然 分 解 。 
结构 法 | 
对 诸如 Ada 和 Pascal 这 些 的 现代 程序 设计 语言 来 说 ， 它 们 数据 流 图 的 大 部 分 可 以 从 结构 化 的 控制 部 
件 推导 出 来 。 结 构 化 控制 部 件 展示 了 它们 单 人 口 / 单 出 口 的 特征 。 这 意味 着 : 无 论 这 些 部 件 中 控制 流 如 
何 复杂 ， 它 们 都 具有 良好 定义 的 入 口 点 与 出 口 点。 凡是 使 用 单一 语句 的 地 方 也 都 可 以 使 用 这 些 具有 单一 
入 口 和 出 日 的 控制 部 件 ， 这 样 就 创建 了 使 用 上 的 一 致 性 和 清晰 的 嵌 套 层次 。 并 非 所 有 的 语言 结构 都 必须 
是 单 入 口 / 单 出 口 的 。 特 别 地 ， 我 们 可 以 跳 入 或 跳出 某 个 结构 ， 而 这 样 将 会 袁 失 单 和 人 口 / 单 出 口 的 特征 。 
就 数据 流 分 析 而 言 ， 可 以 独立 地 求解 结构 化 的 控制 部 件 。 我 们 可 以 将 控制 结构 中 各 成 员 的 Gen 和 
Killed 集 合 分 别 合 并 为 合成 的 用 于 整个 结构 的 Gen 和 Killed 集 合 。 这 样 ， 整 个 结构 就 可 以 被 看 成 是 一 个 单 
位 ， 而 将 In 集合 映射 为 Out 集合 ， 或 反之 。 我 们 从 基本 块 开 始 ， 求 解 那些 逐步 增 大 的 控制 结构 的 数据 谊 
方程 直至 整个 程序 或 子 程序 求解 完毕 或 者 仅 剩 下 无 结构 的 部 件 为 止 。 在 后 一 种 情况 下 ， 可 用 前 面 章 节 的 
技术 来 求解 (再 一 次 将 结构 化 部 件 看 作 一 个 单位 )。 
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在 获得 整个 程序 的 方程 解 以 后 ， 可 将 此 解 传播 回 结构 化 部 件 中 ， 为 那些 媒 套 的 结构 产生 解 ， 最 后 再 
为 各 个 基本 块 产生 相应 的 解 。 

控制 结构 中 最 简单 的 当 数 顺序 执行 结构 。 假 定 我 们 有 两 个 结构 S1 和 S2。 这 些 结构 可 能 是 我 们 已 经 
分 析 过 的 基本 块 或 控制 结构 。 每 个 结构 均 用 它们 的 数据 流 方程 以 标准 形式 来 描述 : Out = (In- Killed) U 


Gen, 


图 16-34 S1 和 S2 的 顺序 执行 


图 16-34 中 的 图 概括 了 穿越 这 两 个 结构 的 数据 流 。 现 在 ，In = in, Out, = Ing, LAR Out, = Out. 3t 
一 步 地 ，Out = (In,-Killed,) U Gen,, Out, = (In;-Killed?) U Gen。。 合 并 后 ， 我 们 得 到 : 

Out = (((In-Killed, )_jGen, )—Killedg)\_yGen, = 

((In—(Killed, Killed) (Gen; Killed»), Genz) 
对 这 个 合并 后 的 结构 ， 我 们 有 : 

Killed = (Killed,, )Killed;) 和 Gen = (Gen,-Killed,)\_jGenz 


也 就 是 说 ， 我 们 可 以 从 任何 一 个 结构 中 生成 或 注销 值 ， 而 且 在 第 一 个 结构 中 生成 的 值 可 在 第 一 人 
构 中 被 注销 。 

条 件 语句 执行 的 模型 如 图 16-35 所 示 。 正 常情 况 下 ， 在 S1 或 S2 的 条 件 执行 前 将 计算 并 测试 有 关 
“谓词 条 件 "。 这 种 情况 可 以 被 建 模 为 使 用 顺序 结构 来 连接 谓词 计算 和 条 件 执行 结构 。 条 件 执行 结构 
的 数据 流 规 则 是 : In = In, = Inz。 对 单 路 径 问 题 而 言 ，Out = Out, U Outz。 而 对 全 路 径 问题 而 言 ， 
Out = Out, N Outa, | [668 | 





图 16-35 S1 或 S2 的 条 件 执行 


我 们 首先 考虑 单 路 径 情况 。 使 用 S1 和 S2 的 方程 ， 我 们 有 : 


Out = ((In-Killed, ) Gen: J) J(( In-Killed;) JGen,) 
z (In-Killed, ) J(in-Killeds), Gen, uU Gen; 
= (In-(Killed, Killed) (Gen; Gen) 
“对 王 单 路 径 情况 ， 我 们 有 : 
Killed = (Killed, Killed) 和 Gen = (Gen, JGen,) 
这 意味 着 如 果 一 个 值 在 条 件 语句 中 的 两 条 路 径 上 均 被 注销 ， 那 么 此 值 才 被 注销 ; 而 要 生成 一 个 值 M] 
可 以 在 条 件 语句 的 任何 一 条 路 径 上 生成 它 即 可 。 
对 于 全 路 径 情况 ， 我 们 有 : 


Out = ((in—Killed, )_ yGen, yr ((n- Killed; )Genz) 
= ((In-Killed,)y^ (in-Killed), ) 
((In-Killed, )MGenz) )((n-Killed;) Gen, Ju) (Gen, Genz) 
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通过 注音 到 我 们 总 是 能 假定 Killed 集 合 与 对 应 的 Gen 集 合 不 相交 ， 我 们 可 以 简化 这 个 方程 。 也 就 是 
说 ， 如 果 我 们 注销 一 个 值 ， 然 后 又 〈 在 相同 的 基本 块 或 结构 中 ) 产生 它 ， 那 么 此 注销 就 不 会 产生 任何 差 
别 。 设 对 应 的 Killed 集 合 与 Gen 集 合 不 相交 ， 则 可 以 证 明 : | 


((In-Killed, ) Geng) c ((In-Killed, ) ^ (in-Killed;)) 
((n-Killed;) Gen; ) c ((In-Killed, ) ^, (In-Killed;)) 


”这 些 不 等 式 允 许 上 述 方 程 简化 为 : 


Out = ((In-Killed, )~y(In-Killeda))\_y 
((In-Killed, Gen») J((n-Killed;) Gen, ) (Gen, Genz) 
= ((in—Killed, )7\(In-Killedz))\_p(Gen, Genz} 
= (In—Killed, Killed, )\_ (Gen, /Genz) 


Killed = (Killed, )Killed;) 和 Gen = (Gen, NGenz) 


在 全 路 径 情况 中 ， 如 果 一 个 值 在 条 件 语 句 中 的 任何 一 条 路 径 上 被 注销 ， 那 么 此 值 才 被 注销 ; 而 要 生 
成 一 个 值 ， 则 必须 在 条 件 语句 的 两 条 路 径 上 均 生 成 它 。 | 

最 后 ， 我 们 考虑 迭代 结构 。 有 很 多 形式 的 循环 ， 图 16-36 in 
是 其 中 的 一 种 。 我 们 将 集中 讨论 最 常见 的 形式 一 一 while 
ioop。 如 果 用 顺序 结构 构造 器 将 初始 化 代码 与 之 连接 的 话 ， 
则 这 种 形式 也 可 以 表示 for loop. 

S1 代 表 循 环 终止 的 测试 ，S2 则 表示 循环 体 。 为 理解 循环 
中 可 能 的 路 径 ， 我 们 可 以 “展开 ” 它 。 如 果 循 环 执行 零 次 ， 则 
只 有 S1 执 行 。 如 果 循 环 执行 一 次 ， 那 么 执行 序列 为 S1;S2;S1。 
如 果 循环 执行 两 次 ， 那 么 执行 序列 为 S1;S2;S1;S2;S1， 等 等 。 
这 些 看 起 来 似乎 极其 复杂 ， 因 为 循环 可 以 无 限 地 迭代。 幸运 的 
是 ,存在 一 个 非常 漂亮 的 简化 。 设 F1 代 表 将 结构 S1 的 In 集合 
映射 为 它 的 Out 集合 的 函数 。 设 G 代 表 将 结构 S1;S2 的 In 集合 映 
射 为 它 的 Out 集合 的 函数 。 由 顺序 执行 的 规则 ， 我 们 知道 G 可 
以 写成 标准 形式 : ((In-Killed) U Gen)。 与 循环 零 次 执行 对 应 
的 Out 集合 是 F1(In) 。 与 循环 执行 一 次 对 应 的 Out 集合 为 图 16.36 8S1 和 S2 的 迭代 执行 
F1(G(In))。 与 循环 执行 两 次 对 应 的 Out 集 合 则 为 F1(G(G(In)))， 
等 等 。 

现在 考虑 G(G(D))。 因 为 G 是 标准 形式 ， 所 以 我 们 可 以 将 该 公式 写 为 : 

(PKiled) JGen)-Killed) „Gan 

= (I- Killed), j(Gen-Killed) Gen 

= (I-Killed), Gen = G(I). 

x^ G(G()) = G() 的 结论 意味 着 循环 体 多 于 一 次 的 执行 不 会 改变 所 要 计算 的 Out 集合 。 事 实 上 ， 循 
环 归结 为 两 种 情况 : 循环 执行 零 次 和 循环 执行 一 次 或 多 次 。 | 

循环 的 数据 流 方程 和 条 件 执行 的 那些 方程 非常 类 似 。 对 于 单 路 径 情况 : 

In, = In Out。 Out = Out, In? = Out, | 

Out, = G(In /G(G(In)  )G(G(G(n))U ) > > = Gn) 

“G 是 与 顺序 执行 的 S1;S2 对 应 的 函数 ;如 前 面 所 推导 的 ， 它 是 : 

Out, = (In-(Killed, Killedz)) (Geni-Kiledz)Gena) 





In, = In_yOut, = In, (Gen, -Killed;), ;/Genz 
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Out = Out, = (In,—Killed, } jGen, 
= ({In (Gen, —Killedz)\_yGen,)-Killed, ) jGen, 
= (In-Killed, )_)(Genz-Killed, ) yGen, 
Killed = Killed, EH. Gen = (Gen;-Killed,) jGen, 
这 个 方程 表明 : 对 循环 的 单 路 径 分 析 ，Out 集 合 就 是 从 In 集合 减 去 在 S1 中 被 注销 的 ， 加 上 在 S1 中 产 
生 的 ， 再 加 上 在 S2 中 产生 且 没 有 在 S1 中 被 注销 的 那 部 分 。 
对 全 路 径 而 言 ， 我 们 注意 到 : In1 要 么 对 应 着 什么 也 不 执行 ( 即 空 循环 )， 要 么 对 应 着 序列 S1;S2 的 
一 次 或 多 次 执行 。 我 们 可 以 使 用 从 条 件 执行 获得 的 全 路 径 解 ， 其 中 一 条 路 径 为 空 语句 (Killed=Gen= ), 
另 一 条 路 径 是 S1;S2 (函数 G 代 表 这 个 序列 )。 因 而 ， 我 们 有 : 


In, = (In-(Killedg—@))_ (Geng 2) - 
= (in-(Killedg)) = (In~(Killed, \_)Killed2)) 


yTRBOuKs, RNAS RRA f: 
Out = (In,—Killed, })_yGen, 
= ((In-(Killed, | Killed;))-Killed, X Gen; 
= (in- (Killed, | Killedy))\_yGen, 
Killed = (Killed, , JKilled;) H. Gen = Gen, 
全 路 径 解 注销 了 那些 可 在 循环 中 任意 路 径 被 注销 的 值 ( 即 ， 只 有 那些 保持 在 所 有 路 径 上 的 值 才 会 被 
保留 下 来 )。Gen 和 集合 仅 包含 Gen1， 因 为 总 要 执行 的 只 有 S1。 | 
为 了 说 明 我 们 已 经 开发 出 的 结构 化 方法 ， 让 我 们 重新 考虑 图 16-33 中 所 示 的 例子 。 各 个 基本 块 的 
Gen 和 Killed 集 合 如 下 表 所 示 : 








我 们 按照 由 内 到 外 的 方式 来 处 理 流 图 ， 并 将 单独 的 基本 块 合并 为 复合 结构 : 


Combining Rule [Killed | Gen 
Tb Conditional | Sumy [2 | 
| 2 | b2b3b4 Sequential - 










— 
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结构 化 的 数据 流 方法 的 最 大 优点 是 ， 该 方法 是 线性 的 。 分 析 时 ,基本 块 首先 被 合并 。 在 每 个 合并 步 ， 
基本 块 和 结构 的 总 数 减 1， 因 此 我 们 仅 需 做 B 步 合并 ，B 为 基本 块 的 个 数 。 每 步 花 时 间 O(V)，V 为 Gen 和 
Killed 集 合 的 大 小 (通常 表示 为 位 向 量 )。 在 合并 阶段 完成 后 ， 我 们 可 以 访问 单独 的 基本 块 ， 使 用 那 宇 已 
知 的 集合 值 以 及 基本 块 和 合并 后 结构 的 方程 来 确定 基本 块 单独 的 In 和 Oui 集合 。 这 个 时 间 正 比 于 OCB x 
V)， 因 此 ， 算 法 的 全 部 时 间 也 是 O(B x V)。 和 迭代 方法 最 差 情况 O(B? x V) 相 比 ， 这 是 一 个 明显 的 改进 。 
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16.5 集成 优化 技术 


我 们 已 在 最 近 这 两 章 里 讨论 了 各 种 优化 。 现 在 ,我 们 将 简要 地 讨论 一 下 在 编译 处 理 中 各 种 优化 的 集 
成 问题 。 大 多 数 优化 编译 器 允许 用 户 选择 他 们 期 望 的 优化 级 别 。 许 多 场合 中 并 不 需要 优化 ， 而 其 他 一 些 
场合 中 则 可 能 要 求 适度 的 或 广泛 的 优化 。 | 

代码 优化 的 投入 虽然 增加 了 编译 时 的 复杂 性 却 换 来 了 运行 时 的 性 能 提高 。 优 化 代价 可 由 多 种 形式 体 
现 。 优 化 编译 器 体积 庞大 、 运 行 慢 且 造价 比 普通 的 产品 质量 级 的 编译 器 高 许多 。 而 且 ， 并 非 所 有 的 优化 
都 是 安全 的 ， 因 此 优化 后 的 程序 通常 不 如 相应 的 未 经 优化 的 程序 健壮 。 

在 程序 开发 和 调试 阶段 ， 任 何 优化 都 是 不 需要 的 。 只 有 到 达 了 最 终 的 产品 生产 成 形 阶段 ， 再 做 与 谨 
慎 的 代码 生成 集成 在 一 起 的 局 部 优化 才 是 合适 的 。 对 大 多 数 产 品 生产 程序 而 言 ， 局 部 优化 可 能 就 是 它们 
所 需要 的 全 部 。 在 使 用 频繁 或 关键 的 程序 中 可 能 需要 进一步 的 优化 。 但 在 这 种 情况 下 ,，“ 不 遗 余力 ”地 
进行 所 有 可 能 的 优化 是 不 必要 的 ， 也 是 不 明智 的 。 相 反 ， 我 们 更 倾向 于 使 用 剖析 工具 来 检查 并 发 现 程序 

673| 中 成 为 性 能 瓶颈 的 热点 所 在 。 一 般 地 ， 子 程序 或 代码 片段 尤其 是 循环 ， 将 被 确定 为 关键 部 件 。 

接 下 来 ， 我 们 将 对 这 些 已 知 的 事 关 程 序 性 能 的 部 件 进 行 全 局 优化 。 对 循环 来 说 ， 优 化 可 能 会 涉及 不 
恋 式 外 提 或 强度 削弱 。 对 子 程序 而 言 ， 内 联展 开 、 调 用 优化 或 过 程 间 分 析 等 被 证 明 是 有 用 的 优化 手段 。 

在 关键 部 件 优化 后 ， 需 再 一 次 剖析 程序 以 查看 是 否 出 现 新 的 热点 ， 或 原先 的 热点 在 优化 后 是 否 仍然 
是 产 颈 。 在 后 一 种 情况 下 ,需要 重新 编程 相关 的 代码 片段 或 子 程序 。 正 是 因为 单独 使 用 优化 不 是 解决 性 
能 问题 的 万 能 药 ， 所 以 剖析 技术 才 成 为 一 个 相当 有 价值 的 工具 。 那 些 糟糕 的 算法 ， 即 使 被 施行 了 大 量 的 
优化 ， 也 还 是 不 能 替代 那些 现 有 的 为 程序 量 身 定制 的 灵巧 算法 。 如 果 算 法 是 经 过 审慎 选择 的 ， 那 它们 可 
能 不 需要 优化 。 而 在 其 他 的 情况 中 ， 对 关键 例 程 所 做 的 仔细 优化 只 是 最 后 的 有 价值 的 增色 而 已 。 

无 论 是 在 为 单独 的 子 程序 还 是 为 整个 程序 做 全 局 优化 的 时 候 ， 其 中 单项 优化 施行 的 次 序 很 重要 。 一 
般 来 讲 ， 那 些 能 够 揭示 其 他 优化 机 会 的 优化 行为 将 被 首先 实施 ， 而 与 代码 生成 集成 在 一 起 的 局 部 优化 将 
在 最 后 施行 。 特 别 地 ， 我 们 建议 按 以 下 步 又 施行 优化 : 

。 在 分 析 程 序 结构 并 将 其 综合 到 IR 代 码 时 ， 要 施行 能 够 展开 程序 结构 的 优化 〈 典 型 的 是 循环 展开 和 

内 联展 开 )。 这 就 允许 对 展开 后 的 结构 实施 进一步 的 分 析 和 简化 。 例 如 ， 子 程序 实 参 内 联展 开 取代 

” 形 参 ， 此 举 可 带 来 合并 (优化 ) 的 机 会 。 

,在 综合 I 代码 时 ， 要 建立 基本 块 。 同 时 计算 那些 用 在 数据 流 分 析 (能 够 描述 基本 块 特征 ) 的 参数 

(如 Def 和 Killed 和 集合 )。 

. 在 建立 基本 块 后 ， 可 以 构造 程序 或 子 程序 的 流 图 。 在 数据 流 分 析 中 ， 必 须 芳 虑 出 现在 基本 块 里 的 

(过 程 或 函数 ) 调用 的 影响 。 如 果 程 序 或 子 程序 是 各 自 独立 分 析 的 ， 那 么 在 基本 块 中 无 论 何 时 遇见 

调用 都 必须 做 出 最 坏 情 况 下 的 假设 。 即 ， 假 定 所 有 的 表达 式 都 要 被 注销 ， 所 有 的 变量 可 能 被 引用 

并 修改 ， 等 等 。 | 

此 外 ， 我 们 可 以 在 不 考虑 控制 流 的 情况 下 检查 子 程序 文本 以 便 更 好 地 估 测 子 程序 调用 所 带 来 

的 影响 。 因 此 ， 在 一 次 调用 中 ， 如 果 变 量 v 的 使 用 出 现在 子 程序 体 文本 中 的 任 一 地 方 ， 我 们 就 假定 

v 将 在 此 调用 期 间 被 使 用 。 

如 果 我 们 在 遇 到 调用 时 可 以 分 析 相 应 子 程序 的 流 图 ， 我 们 就 可 以 获得 更 准确 的 信息 来 确定 调 

用 的 影响 。 即 ， 我 们 用 子 程序 的 流 图 来 取代 它 的 调用 ， 并 分 析 整 个 扩展 后 的 流 图 。 但 这 是 过 程 间 

(interprocedural) 的 流 分 析 。 由 于 存在 递归 ， 流 图 实际 上 是 不 可 能 被 替换 的 。 相 反 ， 我 们 可 用 一 种 

674 迭代 的 方法 来 近似 计算 调用 的 实际 影响 (参见 练习 22 ) 。 
- 接 下 来 可 以 施行 那些 揭示 其 他 优化 的 数据 流 优化 。 特 别 地 ， 常 量 和 复写 传播 的 施行 可 以 很 容易 地 识 
别 其 些 不 可 达 的 基本 块 ， 并 由 此 将 这 些 基 本 块 作为 “ 死 ”代码 而 删除 。 因 此 ， 在 以 下 程序 片段 中 ， 
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if A = 1 then 
B:-1; 
end if, 
传播 某 个 常量 值 到 A 有 可 能 导致 对 B 的 赋值 不 可 达 。 同 样 ， 删 除 B 的 赋值 也 可 能 带 来 其 他 常量 传 
播 和 复写 传播 的 机 会 ， 因 此 ， 这 些 优 化 将 反复 施行 直到 流 图 不 再 发 生变 化 为 止 。 
。 再 接 下 来 ， 施 行 那 些 能 够 揭示 宛 余 代码 的 优化 。 此 类 优化 包括 CSE 分 析 和 非 活跃 变量 的 识别 。 删 
除 宛 余 代码 不 会 改变 流 图 的 结构 ， 因 此 这 类 分 析 仅 需 实施 一 次 。 
。 再 往 下 ， 由 代码 生成 器 将 基本 块 翻 译 为 目标 代码 。 在 代码 生成 时 ， 可 施行 基本 块 内 的 局 部 优化 。 
这 些 优化 被 集成 到 代码 生成 里 是 因为 它们 与 寄存 器 分 配 、 代 码 选择 密切 相关 。 在 诸如 PDP-11 和 
VAX 那 样 有 长 、 短 格式 分 支 指令 的 机 器 上 ， 连 接 基本 块 的 分 支 指 令 格式 是 在 基本 块 被 翻译 为 目标 
代码 之 后 选择 的 。 可 以 在 内 存 中 重 排 基 本 块 以 便 用 短 分 支 指令 替代 长 分 支 指令 。 更 多 的 时 候 ， 在 
基本 块 被 翻译 为 目标 代码 时 ， 它 们 才 被 简单 地 映射 到 内 存 ， 并 在 可 能 时 将 长 分 支 替 换 为 短 分 支 。 
。 最 后 ， 可 以 利用 罕 孔 优化 来 甄别 已 生成 的 代码 并 做 最 后 的 改进 。 
在 组 织 这 些 优化 步骤 时 ， 较 明智 的 做 法 是 将 每 个 阶段 〈 代 码 生 成 除外 ) 做 成 可 选 的 。 这 将 减轻 开发 
与 调试 的 负担 并 很 容易 禁止 不 需要 的 优化 。 


练习 


1， 下 列 优化 中 哪个 是 不 安全 的 ? 哪个 我 们 总 能 从 中 获 益 ? 
。 RIBES (916.4545) 
“常量 传播 ( 见 16.4.5 节 ) 
。 将 标量 型 变量 装 入 未 使 用 的 寄存 帮 
。 将 下 面 循环 
for | in 1 .. 2«N loop 


{loop body} 
end loop; 


部 分 展开 为 : 
for Jin 1 .. N loop 
{loop body with ! replaced by 2+J-1} 
{loop body with | replaced by 2*J] 
end loop; 
2， 在 大 多 数 编译 器 中 ， 优 化 全 部 还 是 部 分 程序 将 由 用 户 来 决定 ， 这 通常 可 以 通过 设置 选项 或 标志 来 进 
行 。 一 种 替代 的 办 法 是 自动 地 做 出 选择 ， 使 得 当 满 足 某 种 条 件 时 ， 就 自动 地 触发 并 实施 优化 。 
应 当 使 用 什么 样 的 条 件 来 触发 优化 的 施行 ? 当 施 行 优化 的 决定 发 生 在 程序 作为 产品 使 用 之 后 ， 
将 如 何 修改 优化 过 程 ? 
3. 考虑 下 面 的 子 程序 : 
type MarkedVocabulary is array(Vocabulary) of Boolean; 
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tunction MarkLambda(G : Grammar) return MarkedVocabulary is 

— Mark those vocabulary symbols found to derive 和 (directly or indirectly) 
DerivesLambda : MarkedVocabulary; 
Changes : Boolean :- True; -~ Any changes during last iteration? 
RHS. Derives. Lambda : Boolean := False; -~ Does the RHS derive X? 
NumProds : Integer := 100; —— Number of Productions in Grammar 
RHSLen : Integer;  —- Length of Current RHS 

in 
for V in Vocabulary loop 
DerivesLambda(V) := False; —- Initially, nothing is marked 
end loop: 








FO 


while Changes loop 
Changes := False; 
for P in 1 .. NumProds loop 
RHS. Derives..Lambda := True; 
. RHSLen := RHS Length(P); 
for iin 1 .. RHSLen loop 
FH HS. Derives Lambda := 
RHS. Derives Lambda and DerivesLambda(RHS(P)(1)); 
end loop; 
if RHS. Derives. Lambda and not DerivesLambda(LHS(P)) then 
Changes :- True; 
DerivesLambda(LHS(P)) := True; 
676 end if; 


end loop; 
end loop; 
. end MarkLambda; 


确定 在 此 程序 上 可 能 施行 的 局 部 优化 和 全 局 优化 。 哪 些 是 我 们 从 中 可 以 获 益 的 ?哪些 是 最 难 实施 的 ? 
4. 给 出 下 面 程序 框架 所 对 应 的 调用 图 : 
program Main is l 
procedure A is 
D; 
B; 
end A; 
procedure B is 
C; 
end B; 
procedure C is 
end C; 


procedure D is 
C; 


E; 
end D; 
procedure E is 
end E; 


begin 
A; 


end Main: | 
5， 能 否 静 态 分 配 练习 4 中 子 程序 的 活动 记录 ? 如 果 可 以 ， 给 出 使 用 最 少 可 能 空间 的 分 配方 案 。 
6， 证 明 16.2.2 节 里 的 静态 活动 记录 分 配 技术 总 是 使 用 最 少 可 能 的 空间 ， 假定 调用 图 所 示 的 所 有 调用 序列 


都 是 可 能 的 。 


677| 7. 考虑 练习 4 中 的 程序 。 假定 程序 已 被 翻译 但 寄存 器 尚未 被 分 配 。 下 表 中 给 出 了 每 个 例 程 所 需 的 寄存 右 数 : 





假定 有 8 个 硬件 寄存 器 可 用 于 分 配 。 你 如 何 将 这 8 个 寄存 器 分 配给 主 程序 和 各 个 子 程序 以 最 小 化 调用 
之 间 的 寄存 器 保存 和 局 复 ? 
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8， 我 们 都 已 经 知道 ， 确 定 任何 不 进行 1JO 的 程序 是 否 终止 的 问题 是 不 可 判定 的 。 即 ， 我 们 不 可 能 构造 一 个 
可 以 正确 判定 程序 在 所 有 情况 下 都 终止 的 算法 。 证 明 这 个 “停机 ”问题 可 被 简化 为 可 达 性 问题 。 如 果 
在 执行 期 间 无 论 是 否 到 达 程 序 指 定语 句 它 总 是 确定 的 ， 那 么 我 们 可 以 根据 可 达 性 来 定义 并 求解 出 “ 停 
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机 ”问题 。 因 为 知道 “停机 ”问题 不 可 求解 ， 所 以 我 们 也 得 出 结论 ， 可 达 性 问题 必定 是 不 可 判定 的 。 


9 解释 如 何 施行 下 列 过 程 调用 的 内 联展 开 。 此 内 联展 开 还 能 使 哪些 优化 成 为 可 能 ? 


A: Real := 2; 
B : Real := 21; 


procedure P(Flag : in Boolean; S : in out Real) is 


in 
if Flag then 
S := S 2; 
else 
S := S/A; 
end if; 
end P; 


P(False,B); 
Write(B); 


10， 解 释 在 施行 内 联展 开 时 ， 如 何 使 用 常量 传播 来 优化 值 参 的 引用 ， 以 及 如 何 使 用 复写 传播 来 优化 标量 


型 in Out 参数 的 引用 。 


11. Ada/CS 子 程序 的 内 联展 开 必须 正确 地 解析 参数 和 局 部 变量 的 引用 。 在 程序 包 P 中 定义 的 子 程序 Q 可 
以 引用 通常 在 包 外 不 能 引用 的 局 部 定义 于 P 的 变量 。 有 无 可 能 在 P 外 内 联展 开 Q 的 调用 ， 并 假定 某 些 
Q 可 访问 的 变量 在 调用 点 仍 不 可 访问 ? 如 果 可 能 ， 那 么 将 如 何 处 理 到 那些 在 通常 情况 下 不 可 访问 变 


量 的 引用 了 呢 ? 


12， 我 们 注意 到 递归 调用 如 果 出 现在 内 联展 开 的 子 程序 中 将 可 能 引发 问题 。 但 在 某 些 情况 下 ， 递 归 调 用 
还 是 可 以 被 容忍 的 。 例 如 ， 如 果 Fact 是 以 通常 的 递归 方式 实现 的 阶乘 函数 ， 那 么 调用 Fact(5) 可 用 
来 做 内 联展 开 ， 而 且 这 个 展开 可 以 被 优化 到 单个 常量 值 。 

参数 为 常量 的 递归 调用 是 否 总 能 被 安全 地 内 联展 开 ? 如 果 不 能 ， 
来 控制 涉及 递归 的 内 联展 开 ? 
13， 计 算 下 面 代码 片段 的 Def(P(B,C)) 和 Use(P(B,C))。 使 用 这 些 Def 和 Use 信 息 ， 判 断 A+B 和 DY+F 是 否 


被 调用 P(B,C) 所 注销 。 


declare 
A,B.C,D,E,F,G : Integer; 


procedure Q(Z : out Integer; X : in Integer) is 


end Q; 


procedure P(! :in Integer; J : in out integer) is 


begin 


另外 需要 什么 样 的 约束 条 件 
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如果 我 们 已 知 范 数 没 有 副作用 ,那么 将 很 容易 优化 该 函数 调用 。 由 于 Ada 和 Ada/CS 仅 允许 in 参 数 ， 


所 以 实 参 不 会 在 函数 调用 期 间 被 修改 。 然 而 ， 变 量 可 在 调用 期 间 被 修改 并 有 时 会 带 来 副作用 。 假 定 
已 计算 函数 调用 的 Def 集 合 。 解 释 如 何 使 用 该 集合 来 确定 调用 是 否 带 来 副作用 。 


.证明 图 16-7 中 的 算法 compute_use_set () 总 会 终止 。 然 后 证 明 它 计算 的 Use 集 合 是 正确 的 。 也 就 


是 说 ， 如 果 在 调用 P 期 间 使 用 了 变量 v， 那 么 v € Use(P); 反之 ， 如 果 vEUse(P)， 那 么 变量 v 实 际 
上 可 能 在 调用 P 期 间 被 使 用 。 
考虑 以 下 程序 片段 : 


for lin 1 .. N loop 
for Jin 1.. N loop 
if M(J)(l) then 
for K in 1 .. N loop 
M(J)(K) := M(J(K) or M(I(K); 
end loop; 
end if; 
end loop; 
end loop; 


使 用 factor invariants() ( 见 图 16-11) 来 外 提 循 环 不 变 式 。 

现在 重 写 下 标 表 达 式 以 揭示 执行 变 址 所 需 的 计算 。 假 定 M 是 N x N 的 布尔 数组 。 使 用 
factor_invariants() 来 外 提包 含 在 变 址 代码 中 的 不 变 式 。 使 用 strength_reduce() 来 强度 削弱 
包含 在 变 址 代码 中 的 乘法 。 


.在 16.3.1 节 里 ， 我 们 注意 到 从 while loop 中 外 提 循 环 不 变 式 是 不 安全 的 ， 即 使 这 个 表达 式 非常 忙 。 


这 是 因为 while loop 可 能 迭代 零 次 ， 且 通常 不 可 能 事先 预测 控制 循环 的 布尔 表达 式 是 否 初始 为 真 。 
另 一 方面 ，Pascal 语 言 的 repeat-until 循 环 人 允许 安全 地 外 提 非 常 忙 循环 不 变 式 ， 因 为 它 必 须 至 少 迭 
代 一 次 。 

证 明 while loop 可 被 重 写 为 一 个 通过 if 语句 进入 的 repeat-until 循 环 。 解 释 如 何 使 用 这 种 变换 
来 安全 地 外 提 while loop 中 的 非常 忙 循环 不 变 式 ? 在 什么 情况 下 这 种 变换 不 合乎 要 求 ? 
建立 下 面子 程序 的 数据 流 图 : 
type ArrayArg is array(Integer range «») of Integer; 


procedure Sort(A : in out ArrayArg) is 
Temp : Integer := O; 
begin 
for | in reverse A’First .. A’Last-1 loop 
for J in A’First .. | loop 
if A(J) > A(J+1) then 
Temp := A(J+1); 


A(J41) := A(J); 
A(J) := Temp; 
end if, 
end loop; 
end loop; 
end Sort; 


列 出 在 练习 18 中 定义 的 Sort 所 计算 的 表达 式 。 对 于 Sort 的 数据 流 图 中 的 每 一 个 基本 块 b ， 确 定 其 


Computed(b)， 即 在 b 中 计算 且 随 后 没有 在 b 中 被 注销 的 表达 式 集合 。 同 时 还 要 确定 Killed(b)， 即 在 
b 中 被 注销 的 表达 式 集合 。 

利用 Sort 的 数据 流 图 和 刚 计 算出 的 Computed 与 Killed 值 ， 对 Sort 实 施 可 用 表达 式 分 析 ， 确 定 
每 个 基本 块 的 Availin 和 AvailOut 集 合 。 采 用 两 种 方法 做 这 个 数据 流 分 析 ， 首 先 采用 和 迭代 技术 ， 然 
后 再 使 用 结构 化 方法 ( 均 见 16.4.6 节 )。 正 常情 况 下 ， 两 种 技术 应 当 产生 相同 的 解 。 

最 后 ， 使 用 刚 计 算出 的 可 用 表达 式 信息 在 Sort 中 实施 CSE 优 化 。 
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重新 若 虑 练习 18 中 定义 的 Sort。 这 一 次 做 活跃 变量 分 析 。 我 们 再 次 使 用 两 种 分 析 方法 ， 首 先 采用 克 


代 技 术 ， 然 后 再 使 用 结构 化 方法 〈 见 16.4.6 节 )。 检 验 两 种 方法 是 否 产生 相同 的 解 。Sort 中 的 任 一 赋 


值 语 名 能 否 因为 被 赋值 的 变量 是 非 话 跃 变量 而 被 删除 呢 ? | 
在 Pascal 语 言 里 ， 值 和 引用 参数 模式 常常 被 混淆 。 特 别 地 ， 因 为 值 模式 是 默认 的 模式 ， 所 以 有 时 值 
参 的 使 用 方式 看 起 来 就 像 在 使 用 引用 模式 一 样 。 区 分 这 种 混 消 的 一 个 标志 是 ， 值 参 在 其 值 使 用 前 一 
般 要 进行 赋值 。 说 明 如 何 使 用 数据 流 来 识别 那些 使 用 前 定义 的 值 参 。 
假定 我 们 希望 建立 程序 1ive_s_vars(P) 来 识别 在 子 程序 P 的 人 口 处 活跃 的 变量 。 当 编译 P 的 调用 
时 ， 可 能 使 用 live_s_vars(P) 来 确定 哪些 变量 必须 在 调用 P 之 前 加 以 保存 。 我 们 已 经 研究 了 活跃 
变量 的 分 析 , 但 live_s_vars(P) 却 提出 了 另外 的 关注 一 一 如 何 处 理 在 P 中 出 现 的 子 程序 调用 。 由 
于 可 能 存在 着 递归 ， 因 此 在 调用 点 插入 子 程 序 的 数据 流 图 是 行 不 通 的 。 

作为 一 种 选择 ， 可 以 使 用 迭代 方法 。 设 1ive_s_vars(P) 假 定 所 有 变量 在 PP 入口 处 活跃 ， 
live_s_vars(P,1) 是 它 的 第 一 次 近似 。 为 计算 live_s_vars(P,2), 使 用 live_s_vars(Q,1) 来 描述 
在 P 中 调用 Q 的 影响 。 类 似 地 ， 为 计算 live_s_vars(P,i)， 使 用 live_s_vars(Q,i-1) 来 描述 在 P 中 调 
用 @ 的 影响 。 此 过 程 将 持续 到 Live s vars(P,i) = live s vars(P,i*l). 
UE BR X PAR EHS IE BER IET: 


live s vars (P,i)- live s vars (P). 


代码 下 沉 (sinking) 优化 是 对 16.4.5 节 中 的 代码 提升 优化 的 补充 。 代 码 提升 在 公共 前 驱 块 中 计算 值 ， 
从 而 使 各 后 继 块 中 的 再 次 计算 变 得 元 余 。 类 似 地 ， 代 码 下 沉 将 赋值 语句 移 到 公共 的 后 继 块 ， 从 而 使 
各 前 驱 块 中 同样 赋值 变 得 元 余 。 例 如 ， 在 下 面 的 程序 片段 中 ， 


if A = B then 
C := A+B; 





end if; 
将 B 赋 值 为 0 的 语句 可 以 移 到 紧 挨 在 if 语句 之 后 的 地 方 。 这 就 使 放 语 句 中 的 两 条 B 的 赋值 语句 成 为 给 
非 活 跃 量 的 无 用 赋值 。 | 

要 使 代码 下 沉 可 行 ,“ 下 沉 ” 的 赋值 语句 所 移 至 的 基本 块 必须 是 原来 各 〈 相 同 ) 赋值 语句 必然 
的 后 继 块 。 此 外 ， 从 原来 的 各 冉 值 语句 到 新 赋值 语句 的 所 有 路 径 上 ， 该 赋值 语句 右 部 的 值 一 定 不 
能 被 改变 且 左 部 的 值 也 一 定 不 能 被 引用 。 

形式 化 一 个 数据 流 问题 以 确定 出 现在 一 个 或 多 个 前 驱 块 中 的 赋值 语句 能 否 移 到 给 定 的 基本 块 。 将 
这 个 分 析 结 果 用 到 与 图 16-26 中 的 code_hoist( ) 例 程 类 似 的 code_sink( ) 例 程 中 。 
我 们 知道 基本 块 b 的 支配 ( 必 经 ) 结 点 是 任意 基本 块 d， 如 果 到 b 的 所 有 路 径 上 都 必须 经 过 d。 计 算 b 
的 必 经 结 点 集合 Dom{(b) 的 一 个 粗略 方法 是 ， 列 出 从 初始 基本 块 bo 到 b 的 所 有 非 循环 路 径 。 而 集合 
Dom(b) 就 是 那些 恰好 出 现在 所 有 列 出 的 非 循环 路 径 上 的 结 点 集合 。 

然而 ， 下 面 给 出 的 却 是 一 个 巧妙 的 方法 。 根 据 定义 ，Dom(bo) = {bo}. #Dom(b), 
bz bs， 近 似 为 B，B 为 所 有 基本 块 的 集合 。 很 明显 ， 该 近似 估计 过 高 。 我 们 注意 到 ， 对 任意 基本 块 
b, Dom(b) = {b} . Domo), 即 ，b 总 是 其 自身 的 必 经 结 点 。 此 外 ， 如 果 c 榨 制 支配 5b ， 则 它 必 


定 也 控制 支配 所 有 b 的 直接 前 驱 。 
建立 一 个 迭代 算法 ， 它 使 用 前 面 描述 的 方法 来 计算 所 有 基本 块 的 必 经 结 点 集合 。 证 明 所 计算 
的 必 经 结 点 集合 是 正确 的 。 


25， 假 定 按照 练习 24 中 描述 的 方法 计算 必 经 结 点 。 证 明 对 于 每 个 必 经 结 点 集合 Dom(b)-b， 存 在 惟一 的 
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26. 
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29. 





成 员 i € Dom(b)-b，i 是 b 的 直接 必 经 结 点 。 也 就 是 说 ， 对 所 有 的 j E Dom(b)-b, jeDom(i). wR 
本 块 是 基本 块 b 的 直接 必 经 结 点 ， 那 么 i 是 离 b 最 近 的 必 经 结 点 且 因 此 成 为 最 合理 的 地 方 来 移动 从 b 中 
外 提 的 代码 。 | 

在 某 些 程序 设计 语言 里 ， 对 变量 的 类 型 不 做 声明 。 相 反 ， 变 量 的 类 型 可 由 它们 的 使 用 方式 推断 出 。 
an, ÆA := B+1.0 中 ， 如 果 加 法 涉及 实数 ， 它 必定 产生 实数 ， 于 是 A 的 类 型 也 一 定 是 实 型 。 假 定 
我 们 可 以 确定 所 有 字面 值 的 类 型 ， 并 且 没 有 自动 的 类 型 转换 ， 则 所 有 表达 式 的 结果 类 型 由 它们 的 操 
作 数 类 型 决定 。 说 明 如 何 使 用 数据 流 技 术 来 确定 变量 的 类 型 。 最 初 ， 所 有 变量 应 当 被 假定 为 任意 类 
型 。 在 程序 的 最 后 ， 该 数据 流 分 析 将 告诉 我 们 变量 所 具有 的 确切 类 型 ， 或 者 告诉 我 们 没有 类 型 可 与 
变量 的 使 用 方式 一 致 ， 或 者 告诉 我 们 不 能 惟一 地 确定 变量 的 类 型 (由 于 上 下 文 不 充分 )。 

证 明 图 16-31 中 的 算法 在 求解 单 路 径 问题 时 可 以 计算 出 一 个 最 小 解 。 即 ， 如 果 In 是 数据 流 方 程 的 任 
意 有 效 解 ， 而 In 是 图 16-31 中 的 算法 所 计算 的 解 ， 那么 InCin 。( 提 示 : 初始 时 ，Ino Cin.) 

我 们 一 般 假 定 ， 如 果 有 充足 的 未 被 占用 的 寄存 器 可 供 使 用 ， 那 么 把 那些 使 用 频繁 的 变量 保存 在 寄存 
器 中 是 较为 明智 的 做 法 。 因 此 ， 基 于 循环 下 标 和 程序 参数 将 在 循环 或 子 程序 中 被 频繁 访问 的 假定 ， 
我 们 可 以 将 这 些 对 象 指派 到 寄存 器 中 。 

与 其 求助 于 这 个 真 假 难 料 的 一 般 性 ， 我 们 倒 不 如 尽 可 能 地 估 测 每 个 变量 的 引用 频率 。 如 果 做 
了 这 个 预测 ， 那 么 我 们 将 把 引用 最 频繁 的 变量 指派 到 寄存 器 中 ， 直 到 分 配 完 所 有 空闲 的 寄存 器 为 
止 。 估 测 变量 引用 频率 的 最 好 方法 是 剖析 程序 的 执行 。 如 果 没 有 可 用 的 剖析 数据 ， 那 么 可 以 实施 
一 个 形式 与 数据 流 分 析 类 似 的 引用 频率 分 析 。 | 

该 分 析 可 以 通过 对 程序 流 图 进行 结构 化 分 析 来 完成 。 主 程序 执行 一 次 。 如 果 一 条 语句 估计 要 
执行 N 次 ， 那 么 顺序 后 继 (语句 ) 也 将 执行 N 次 。 如 果 条 件 语 名 执行 M 次 ， 那 么 各 个 分 支 语句 所 估 
计 的 执行 次 数 的 总 和 一 定 是 M 次 。 通 常 在 计 语 句 中 ,假定 then 和 else 分 支 各 执行 M/2 次 。 如 果 一 个 
循环 执行 L 次 ， 那 么 它 的 循环 体 将 执行 L x P 次 ， 其 中 P 是 估 测 的 循环 迭代 次 数 。 对 于 常量 循环 边界 
的 for loop 循 环 ， 可 以 精确 确定 P; 对 于 其 他 的 循环 ， 可 能 要 估 测 循环 的 迭代 次 数 (如 假定 每 个 特 
环 和 迭代 10 次 )。 

一 日 确定 每 条 语句 预期 的 执行 频率 ， 那 么 就 很 容易 计算 出 每 个 变量 预期 的 引用 频率 ， 而 其 中 
引用 最 频繁 的 变量 将 被 指派 到 寄存 器 中 。 假 定 循环 迭代 10 次 ， 且 then 和 else 分 支 执行 次 数 相同 ， 
请 估 测 练习 18 中 的 子 程序 里 的 每 条 语句 的 执行 频率 。 假 定 我 们 有 三 个 寄存 器 可 用 于 分 配 ， 那 么 我 
们 的 分 析 将 建议 哪些 变量 可 以 被 指派 到 这 些 寄存 器 上 ? | 
练习 28 中 实施 的 分 析 假定 特定 的 变量 在 程序 或 子 程序 中 被 指派 到 特定 的 寄存 器 上 。 这 在 某 种 程度 
上 比较 浪费 ， 原 因 是 在 程序 的 某 些 地 方 ， 变 量 可 能 是 不 可 访问 的 或 非 活跃 的 ， 因 此 也 就 不 需要 在 
那些 地 方 被 指派 到 寄存 器 中 。 请 设想 该 如 何 使 用 活跃 / 非 活跃 信息 来 改进 练习 28 中 描述 的 寄存 器 分 
配方 案 。 





第 17 章 ”现实 世 寞 中 的 语法 分 析 


在 第 3、5 和 6 章 里 ， 我 们 详细 研究 了 为 现代 程序 设计 语言 构造 词法 分 析 器 和 语法 分 析 器 的 问题 。 在 
这 一 章 里 ， 我 们 将 考虑 在 “现实 世界 ”分 析 中 的 两 个 至 关 重要 的 问题 一 一 表 压 缩 和 错误 修复 。 

那些 由 词法 分 析 器 和 语法 分 析 器 的 自动 生成 器 所 产生 的 表 通 常 是 大 而 稀疏 的 。 但 经 仔细 处 理 ， 我 们 
可 以 有 效 地 压缩 那些 表 并 少许 降低 访问 表 元 素 的 时 间 。17.1 节 的 主题 即 为 各 种 表 压 缩 技术 的 调研 与 分 析 。 
”我 们 已 提出 的 分 析 理 论 主要 解决 正确 输入 的 有 效 分 析 。 而 实践 中 ， 我 们 还 是 需要 某 种 处 理 错误 输入 
的 办 法 。 这 是 一 个 复杂 的 问题 ， 且 不 存在 最 佳 答案 。 在 17.2 节 里 ， 我 们 调查 了 各 种 实际 使 用 的 方法 。 自 
动 生 成 的 错误 处 理 程序 因 其 特别 容易 使 用 而 受到 特殊 的 关注 。 


17.1 EAR 


存储 由 ScanGen 、LLGen 和 LALRGen 这 样 的 工具 产生 的 表 的 最 明显 的 办 法 是 采用 普通 的 -- 维 或 二 维 
数组 。 这 种 表示 在 用 于 二 维 表 时 空间 开销 比较 大 ， 特 别 是 当 表 稀 玻 的 时 候 更 是 如 此 。 稀 下 表 中 的 大 多 数 
条 目 均 被 设置 为 特殊 的 默认 值 。 例 如 ，Ada/CS 的 LL(1) 文 法 包含 了 70 个 终结 符 和 138 个 非 终 结 符 。 采 用 数 
组 形式 存储 的 LL(1) 分 析 器 动作 表 需 要 大 约 10 000 (138 x 70) 个 条 目 。 根 据 实际 经 验 ， 这 些 表 中 一 般 仅 
含有 10% 左 右 的 非 出 错 条 上 且 ， 因 此 我 们 可 以 通过 不 同 于 普通 数组 的 一 些 表示 方法 来 获得 更 大 的 空间 节省 。 

现在 考虑 其 他 表示 二 维 表 T(N x M) 的 方法 。 假 设 有 E 个 非 默认 的 条 目 ， 其 中 E<<N x M。 我 们 的 目标 
是 : 在 表 的 表示 方法 中 表 空 间 大 小 是 与 8 而 不 是 与 Nx NM 成 正比 ， 且 同 
时 将 保持 到 TI[i][j] 的 快速 访问 。 | 

我 们 最 初 考虑 的 方法 和 那些 用 于 符号 表 的 方法 类 似 。 普 通 符号 表 
和 压缩 表 的 重要 区 别 是 : 表 T 中 的 条 目 均 为 事先 已 知 的 ， 而 符号 表 的 
条 目 则 是 在 编译 过 程 中 被 动态 创建 或 撤销 的 。 

在 后 面 的 讨论 中 ， 我 们 使 用 图 17-1 中 的 一 个 5 x 5 的 表 作 为 示例 。 
表 中 的 空白 表示 默认 的 条 目 ; 其 他 条 目 则 用 单个 字母 表示 。 图 17.1 AR 
二 分 搜索 | 

可 以 根据 非 默认 条 日 的 索引 排序 来 创建 一 张 表 。 此 表 需 要 3 x E 个 条 日 (索引 i 和 j 以 及 条 目的 值 )。 
所 需 条 目 可 以 通过 基于 索引 的 二 分 搜索 来 查找 ， 其 时 间 要 求 为 O(log(E))。 对 于 图 17-1 中 的 数组 ， 我 们 可 
以 创建 如 图 17-2 所 示 的 二 分 搜索 表 。 

假设 每 个 条 目 占用 一 个 单元 的 存储 空间 ， 如 果 3 x E<N x M， 我 们 即 获得 了 空间 上 节省 。 查 找 时 间 正 
比 于 log(E)。 随 E 变 大 ， 查 找 有 可 能 慢 得 难以 接受 。 

哈 希 表 

索引 i 和 j 可 被 散 列 到 哈 希 表 中 的 位 置 k， 使 用 以 下 规则 : 如 果 位 置 k 已 被 占用 ， 我 们 将 尝试 Kk+1%S ， 
随后 党 试 k+2$S ， 等 等 。( 记 住 :% 代 表 C 语 言 中 的 取 模 运算 。) S 是 表 的 大 小 ， 这 种 处 理 表 中 冲突 的 办 法 
称 为 线性 法 (linear resolution)。 此 哈 希 表 中 的 每 个 位 置 上 要 求 3 个 条 目 位 ,j,T[i]{j]}， 并 且 我 们 要 求 
SE ( 表 中 有 一 个 空闲 位 置 可 以 避免 搜索 的 条 目 不 在 哈 希 表 中 时 出 现 死 循 环 )。 

使 用 图 17-1 中 的 例子 ， 我 们 创建 了 如 图 17-3 所 示 的 哈 希 表 ， 其 中 Ss=E+1。 所 用 的 哈 希 函数 是 
h(i,j)-i*j$S. 
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图 17-2 —-*+RRALDERAD MARA 图 17-3 一 个 表示 为 哈 希 表 的 稀疏 数组 


此 哈 希 表 中 非 默认 条 目的 平均 查找 次 数 约 为 1.89 次 ， 而 默认 条 目的 平均 查找 次 数 约 为 4.5 次 。 

一 般 地 ， 如 果 3 x S<N x M， 哈 希 表 将 节省 空间 。 查 找 时 间 与 表 的 大 小 、 哈 希 函 数 和 未 使 用 条 目的 数 
量 相 关 (S 和 BE 之 差 )。 如 果 集 合 S 的 设置 很 接近 E， 那 么 查找 时 间 将 由 于 频繁 的 冲突 而 被 延长 。 然 而 ， 因 
为 ?中 所 有 条 目 均 事 先 已 知 ， 所 以 我 们 可 以 调整 S 和 哈 希 函数 以 降低 哈 希 表 中 条 目的 平均 查找 次 数 。 事 实 
上 ， 如 果 使 用 3.5 节 里 的 完美 哈 希 技术 ， 那 么 哈 希 表 中 的 探 针 可 以 满足 任何 非 默认 条 目的 定位 。 
行 压缩 

可 以 将 二 维 数组 看 成 是 指向 其 各 行 的 指针 的 向 量 。 即 ，T[i][j] 可 被 映射 为 V[row[i]+j]， 其 中 V 是 


包含 数组 各 行 的 向 量 ， 这 些 行 是 首尾 相连 的 。row[i] 给 出 了 Vv 中 第 i 行 的 开始 位 置 。 事 实 上 ， 这 种 映射 


通常 用 于 在 内 存 中 查找 给 定 的 数组 元 素 的 位 置 ， 用 到 的 规则 为 row[i]= (i-1)*M. 

为 节省 空间 ， 我 们 可 以 删除 行 中 的 默认 条 目 并 存储 每 个 非 默 认 条 目的 值 和 列 索引 。 此 外 还 必须 保存 
一 个 称 为 row[] 的 向 量 ， 它 给 出 在 剔除 默认 条 目 后 V 中 第 i 行 的 偏 移 。 我 们 从 V[row[i]] 到 
V[row[i+1] ]-1 的 条 目 中 寻找 索引 值 j]。 如 果 找 到 ， 那 么 此 条 目 中 的 下 一 个 值 即 为 T[i]{j]; 否则 ， 
T[i][j] 一 定 是 默认 值 。 

对 于 我 们 上 面 5 x 5 的 例子 ， 我 们 可 能 会 得 到 如 图 17-4 所 示 的 表 。 这 种 表示 方法 需要 2 x E 而 不 是 3 x 
E 个 条 目 ， 再 加 上 row 向 量 中 的 N+1 个 条 目 。 如 果 采 用 顺序 搜索 ，T[ilr3j] 的 平均 查找 时 间 为 ND(i)72， 
其 中 ND(Ui)=row[i+lj-row[i] 是 T 的 第 i 行 中 非 默 认 条 目的 个 数 。 如 果 使 用 二 分 搜索 ， 查 找 时 间 为 
log (ND(i)). 


V: 
wis fol 3| |4 
人 Ti:L4:plz:als:RL3:U 
me [5| [6] 8| 
Eoo Ewela 
Row 表 : 
sa [1[2[3|14|5|6 
we [ol214|15|7|9| 


17-4 一 个 采用 行 压缩 表示 的 稀疏 数组 
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双重 偏 移 索引 

如 果 T 的 某 些 行 有 较 多 的 非 默认 条 目 ， 那 么 使 用 行 压缩 方法 时 查找 时 间 可 能 会 成 为 较 棘 手 的 问题 。 
而 这 里 介绍 的 双重 偏 移 索 引 方 法 试 着 以 适度 增加 所 需 空间 为 代价 来 确保 快速 查找 。 此 想法 很 聪明 : 各 行 
在 彼此 相关 的 偏 移 处 相互 重 释 以 便 某 一 行 中 非 默认 条 目 总 是 窗 盖 其 他 行 中 的 默认 条 目 。 这 就 保证 了 在 给 
定 的 位 置 上 仅 有 一 个 非 默认 条 目 。 行 号 与 条 目 存 放 在 一 起 以 便 确 定 所 关联 的 非 默 认 条 目的 所 在 行 。 我 们 
可 以 使 用 图 17-5 中 的 表格 来 表示 前 面 的 例子 数组 。 





个 数 |2|3|4|5| 
偏 移 olololsls 
图 17-5 一 个 使 用 双重 偏 移 索 引 表 示 的 稀 玻 数组 


为 得 到 milr0jl， 我们 查找 v[zow[il+jl。 如 果 此 条 目 为 空白 ， 则 返回 默认 条 目 。 如 本 
vizoewfil+3j] 的 第 一 个 成 员 是 ， 那 么 我 们 将 它 的 第 二 个 成 员 作为 [il1031 的 值 返回 ; 否则， 我 们 仍然 返 
回 默认 条 目 。 在 所 有 情况 下 ， 我 们 仅 检 查 了 表 Vv 中 的 一 个 条 目 ， 因 此 速度 非常 快 。 最 佳 情况 下 的 空间 需求 
几乎 和 采用 行 压 缩 的 方法 一 样 ， 均 为 2 x E+N 个 条 目 。 然 而 ， 此 最 佳 情 况 下 的 空间 需求 通常 无 法 实现 ， 而 
经 验 告 诉 我 们 实际 所 需 的 空间 与 此 最 佳 情况 已 相当 接近 。 | 

作为 一 项 实验 ， 我 们 曾 研 究 过 此 双重 偏 移 表 示 法 可 否 用 于 Ada/CS 的 LL(1) 分 析 表 。 那 个 未 压缩 的 表 
大 小 有 9 660 个 条 目 (70 个 终结 符 乘 上 138 个 非 终 结 符 )。 共 中 ， 非 默认 条 目 个 数 E 为 629， 占 金 部 条 目 数 
的 6.51%。 当 压缩 长 度 为 70 的 行 时 《每 一 行 代表 着 某 个 特定 非 终 结 符 的 预测 )， 表 Vv 中 需要 660 个 条 目 (W 
出 最 佳 可 能 4.9%)。 而 当 转 置 此 分 析 稀 路 矩阵 的 行 和 列 后 ， 可 以 压缩 长 度 为 138 的 行 (每 一 行 是 超前 搜索 
终结 符 所 对 应 的 预测 )， 此 时 表 V 中 需要 879 个 条 目 (超出 最 佳 可 能 39.7%)。 造 成 这 两 种 情况 下 表 V 大 小 
差异 的 原因 是 较 长 的 行 (1383970) 比较 难以 压缩 。 | 

表 V 中 各 行 的 覆盖 顺序 可 以 影响 最 终 的 表 的 大 小 。 因此 ， 如 果 我 们 在 先前 的 例子 中 以 1、5、2、4、3 
的 顺序 覆盖 各 行 ， 则 可 能 得 到 如 图 17-6 所 示 的 最 佳 的 布局 。 

一 般 地 ， 最 佳 方式 的 行 覆盖 问题 是 NP- 完 全 的 〈Garey 和 Johnson，1979)。 它 意味 着 已 知 最 好 的 算法 
需要 被 覆盖 的 行 数 的 指数 阶 时 间 ， 这 也 就 几乎 等 于 尝试 所 有 的 排列 。 

行 履 盖 的 一 个 较 好 的 启发 式 方法 称 为 最 优 递 减法 (best-fit decreasing )。 各 行 是 以 所 含 非 默认 条 目 
密度 递减 的 顺序 相互 覆盖 ,而 且 所 选 的 每 次 履 族 都 将 缩减 表 V 的 大 小 。 其 关键 点 在 于 首先 覆盖 带 有 许多 
非 默 认 条 目的 行 〈 它 们 与 其 他 非 默认 条 目的 冲突 最 多 )， 而 最 后 覆盖 那些 最 容易 〈 含 有 少量 非 默认 条 且 ) 
的 行 (以 填充 表 V 中 的 “空洞 " )。 我 们 将 在 附录 F 中 讨论 使 用 此 最 优 递 减 方法 创建 双重 偏 移 索引 的 数组 压 
缩 实用 程序 。Tarjan 和 Yao (1979) 深 入 讨论 了 这 种 双重 偏 移 索 引 的 方法 。 


17.1.1 压缩 LL(1) 分 析 表 
我 们 可 以 利用 LLCD 分 析 表 的 特殊 性 质 来 进一步 减少 空间 需求 而 同时 对 查找 速度 的 影响 却 甚 少 。 我 
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们 知道 ， 在 存储 压缩 表 时 ， 必 须 随 条 目 一 起 存放 用 于 条 目标 识 的 一 个 或 两 个 索引 。 因 此 ， 对 于 有 E 个 非 
默认 条 目的 表 ， 我 们 需要 2 x E 或 3 x E 个 条 目 。 在 LL(1) 分 析 表 中 ， 索 引 可 以 是 待 展 开 的 非 终结 符 ， 或 者 
是 超前 搜索 的 终结 符 。 表 中 默认 的 条 目 代 表 分 析出 错 的 情况 ; 非 默认 条 有 目 则 是 产生 式 的 名 字 。 但 如 果 
T[&R][a] 是 某 个 产生 式 的 名 字 (通常 被 编码 为 一 个 整数 )， 则 &a 必 定 是 那个 产生 式 的 左 部 。 这 意味 着 在 压 
缩 表 中 不 需要 显 式 地 将 A 与 ?[Al[a] 存 放 在 一 起 。 相 反 地 ， 我 们 创建 可 将 产生 式 映射 为 它们 相应 左 部 的 
向 量 LHs 。 如 果 T[&A] [a] 不 是 出 错 条 目 ， 那 么 LHS[T[R][a]j=a。 如 果 产 生 式 的 数目 小 于 表 中 非 默认 条 
目的 数目 (通常 是 这 种 情况 )， 那 么 我 们 通过 在 每 个 条 目 中 存储 LHS 向 量 而 非 一 个 索引 就 可 以 进一步 获得 
空间 上 的 减少 。 
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图 17-6 使 用 双重 偏 移 索 引 的 稀疏 数组 的 最 佳 表 未 


这 种 改进 体现 在 当 各 行 对 应 一 个 给 定 的 超前 搜索 终结 符 时 所 使 用 的 行 压缩 技术 中 ， 以 及 当 各 行 对 应 
一 个 给 定 的 非 终 结 符 时 所 使 用 的 双重 偏 移 技 术 中 。 在 行 压缩 方法 中 ， 我 们 检查 从 V[row{al1l1 到 
VvV[row[a+1]-1] 的 条 目 。 每 个 条 目 是 产生 式 的 索引 。 如 果 LHS[V[i]]=A (HH, row[a] <i< 
row[at+1]-~1)， 那 么 V[i]=T[A][al; 否则 ， 考 虑 V[i+1]。 

类 似 地 ， 对 于 双重 偏 移 技 术 ， 我 们 检查 V[row[Al+ta]。 如 果 LHS[V[row[A]+ta]]=A， 那 么 
T[Al[a]=V[row[A]+a]， 否 则 T[A][a]=error。 为 测量 此 项 修改 的 价值 ， 我 们 可 以 回 过 来 再 看 
Ada/CS 的 LL(1) 分 析 表 。 如 果 我 们 显 式 地 将 索引 及 其 相应 的 条 目 存 放 在 一 起 且 使 用 较 短 的 行 〈 因 为 它们 
能 更 好 地 猪 盖 )， 那 么 我 们 可 能 需要 660 x 2 个 条 目 + 一 个 row 向 量 (大 小 为 138) = 1458 个 条 目 。 如 采 使 
用 向 量 LH5 来 避免 存储 任何 索引 ， 那 么 我 们 现在 只 需要 660 x 1 个 条 目 + 一 个 row 向 量 (大 小 为 138) + 一 
个 LHS 向 量 (大 小 为 252) = 1050 个 条 目 ， 空 间 减 少 28%。 


17.2 语法 错误 的 恢复 与 修复 


当 编 译 器 发 现 语法 错误 时 ， 它 通常 想 做 的 事 就 是 试图 使 语法 分 析 (或 整个 编译 ) 过 程 继 续 进行 下 去 
以 便 发 现 更 多 的 错误 。 而 这 些 涉及 到 错误 恢复 (error recovery) 或 错误 修复 (error repair) 的 工作 。 
错误 恢复 

进行 错误 恢复 时 ， 我 们 试 着 重新 设置 语法 分 析 器 以 便 分 析 处 理 剩 余 的 输入 。 此 过 程 可 能 涉及 修改 语 
法 分 析 栈 或 剩余 输入 。 根 据 错误 恢复 完成 的 好 坏 ， 后 续 的 语法 错误 有 可 能 是 真实 的 ， 或 它们 可 能 是 受 前 
面 的 语法 错误 株连 而 得 到 的 。 例 如 ， 在 …A := B C + D;… 中 ， 恢复 算法 或 许 会 从 词法 记号 C 处 预测 一 条 
语句 而 重新 开始 语法 分 析 。 然 而 ， 这 将 导致 在 + 处 有 一 个 虚假 的 语法 错误 。 

衡量 错误 恢复 例 程 质量 好 坏 的 主要 依据 是 看 它 所 导致 的 虚假 错误 或 株连 错误 的 多 少 ; an, 看 它 
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法 分 析 器 和 剩余 输入 相同 步 的 精准 程度 。 正 常情 况 下 ， 在 进行 了 错误 恢复 后 ,语义 和 代码 生成 例 程 均 被 
禁止 ， 因 为 此 时 再 去 执行 那些 编译 器 的 输出 已 没有 任何 意义 。 

最 简单 的 错误 恢复 办 法 称 为 紧急 方式 (panic mode)。 在 紧急 方式 下 ， 语 法 分 析 器 尝试 “紧急 跳出 ” 
某 个 语言 构造 ， 同 时 寻找 一 个 安全 的 符号 《例如 分 界 符 或 语句 的 首部 ) 以 重新 开始 分 析 。 紧 急 方 式 通 前 
在 单独 使 用 的 时 候 效果 并 不 令 人 满意 ， 但 它 常 常 是 其 他 所 有 办 法 均 失 败 时 的 一 个 可 依 生 的 办 法 。 
错误 修复 | 

在 进行 错误 修复 时 ， 我 们 尝试 将 用 户 的 输入 修复 为 有 效 的 程序 。 此 过 程 可 能 涉及 修改 已 分 析 过 的 输 
入 或 者 (更 常见 的 是 ) 修改 剩余 输入 。 在 重新 开始 编译 后 ， 仍 可 能 发 现 后 续 的 错误 。 同 样 地 ， 这 些 错 误 
可 能 是 真实 的 用 户 错误 或 由 先前 修复 动作 所 导致 的 虚假 错误 。 因 此 , ÆA := B C +D; H, BAR 
法 可 能 在 B 后 面 插入 分 号 〈(;)， 而 此 举 将 在 符号 + 处 引起 一 个 虚假 的 或 级 联 的 语法 错误 。 另 外 ， 如 果 修 复 
算法 在 B 后 面 插入 的 是 运算 符 Oor， 则 有 可 能 导致 一 个 虚假 的 语义 错误 。 

错误 修复 算法 的 准确 性 可 以 通过 它 的 修复 动作 所 导致 的 虚假 错误 的 多 少 来 衡量 。 修 复 算法 实际 上 在 
尝试 着 修复 有 错误 的 输入 , 而 且 在 修复 工作 完成 后 语义 处 理 和 代码 生成 阶段 还 将 继续 进行 。 正 常情 况 下 ， 
可 以 执行 带 有 错误 修复 功能 的 编译 器 的 输出 ， 尽 管 其 中 可 能 存在 的 语义 错误 会 在 运行 时 调用 终止 例 程 或 
PAIK se o 

错误 修复 (error repair) 有 时 被 人 称 作 错 误 校 正 (error correction ) ， 但 我 们 认为 这 多 少 有 些 用 词 不 
当 。“ 校 正 ” 一 词 使 人 想到 的 是 我 们 可 以 提供 用 户 实际 想 要 的 。 而 这 一 点 恰恰 是 我 们 无 法 做 到 和 的。 相反 ， 
我 们 最 希望 做 的 是 能 将 一 个 非法 的 语言 构造 修复 成 合理 的 语言 结构 。 因 此 ， 与 “错误 校正 ” 相 比 ， 错 
误 修复 ”更 多 地 是 对 实际 发 生 的 情况 的 一 种 找 述 。 

一 般 来 讲 ， 错 误 修复 算法 要 比 错误 恢复 算法 复杂 得 多 ， 因 为 前 者 实际 上 必须 尝试 修复 错误 的 输入 而 
同时 还 要 维护 用 来 继续 进行 翻译 的 语义 信息 。 相 比 之 下 ， 一 个 恢复 例 程 只 要 能 重启 分 析 过 程 且 粗 略 地 改 
"E (或 抛弃 ) 相关 分 析 栈 和 剩余 输入 的 内 容 即 可 。 

尽管 如 此 ， 错 误 修复 算法 总 还 是 可 以 用 于 错误 恢复 ， 因 为 如 果 我 们 可 以 修复 一 个 输入 ， 那 么 我 们 当 
然 可 以 继续 分 析 它 。 

在 设计 错误 恢复 和 修复 算法 时 ， 我 们 利用 了 以 下 事实 : 所 有 我 们 感 兴趣 的 语法 分 析 技术 ， 包 括 
SLR(1), LALR(D), LRODAILL(1), 494 4E 28 8648 4 4t. (correct prefix property )。 也 就 是 说 ， 如 条 我 们 
有 输入 配置 YTz (其 中 ， 输 入 串 y 已 被 读 人 ， 终 结 符 T 被 发 现在 语法 上 是 非法 的 ， 串 z 是 剩余 输入 ) ABZ 
我 们 知道 y 是 某 个 合法 程序 的 前 缀 [y … € L(G)] 而 yT 不 是 [yT … € L(G)]。 在 此 上 下 文中 可 以 有 三 种 不 同 
类 型 的 修复 操作 : 

(1) 修改 y。 

(2) 在 y 和 T 之 间 插 入 串 v 使 得 yvT … € L(G). 

(3) 删除 T 以 便 yz 成 为 待 处 理 的 对 象 (然后 可 将 操作 (1D)、(2) 或 (3) 应 用 于 这 个 已 修改 的 输入 串 )。 

这 三 种 修复 操作 的 吸引 力 并 不 相等 。 特 别 地 ， 操 作 (1) 无 疑 是 较 差 的 。 通 常 ，y 因 其 已 被 分 析 而 不 是 
直接 可 用 的 。 此 外 ， 如 果 即 将 采取 错误 修复 动作 ， 则 y 的 修改 在 一 遍 编 译 器 中 一 般 要 求 取消 已 完成 的 语 
义 和 代 码 生 成 操作 一 一 而 这 点 是 很 难 或 不 可 能 简单 而 有 效 进行 的 。 

恢复 算法 有 时 也 (通过 弹出 分 析 栈 内 容 ) 修改 y， 但 此 举 被 认为 是 过 激 的 ， 因 为 y 已 经 被 接受 且 被 验 
证 为 语法 有 效 的 。 事 实 上 ， 当 y 已 知 为 有 效 时 ， 我 们 并 不 需要 去 修改 它 ， 所 有 的 修复 操作 可 以 限制 在 第 
(2) 和 第 (3) 类 上 。 因 此 ， 大 多 数 修复 算法 选择 从 不 修改 y (以 避免 改变 语义 )， 而 恢复 算法 也 只 把 y 的 修改 
作为 最 后 的 手段 。 

请 注意 ， 尽 管 如 此 ， 排 出 了 对 y 的 修改 有 可 能 也 排出 了 某 些 想 要 的 修复 。 例如， 下 面 的 例子 中 的 错 
误 是 “缺少 让 : 
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--- :B then C:=0; end if; -- - 


正常 情况 下 ， 在 发 现任 何 错误 前 ， 这 里 的 B 将 被 归 约 为 某 个 左 部 。 而 在 这 一 点 ，if 的 播 和 人 将 实际 修改 y 这 
个 已 被 接受 的 输入 前 级 。 这 个 错误 在 实践 中 很 少 出 现 而 且 许 多 修复 算法 也 只 是 简单 地 把 它 给 忽略 掉 。 另 
一 种 较 有 吸引 力 的 方法 是 采用 出 错 产 生 式 (error production) 来 预测 此 类 可 能 性 。 出 错 产生 式 是 添加 到 
文法 中 用 来 预测 特定 错误 的 产生 式 。 实 际 上 ，、 它 扩展 了 语言 的 语法 以 覆盖 那些 已 预料 到 的 错误 。 当 一 个 
出 错 产生 式 被 识别 时 ， 编 译 器 将 产生 特殊 的 错误 信息 以 描述 该 出 错 产生 式 所 表示 的 修复 动作 。 对 于 缺少 
if 首 部 的 这 种 错误 ， 我 们 可 以 使 用 如 下 出 错 产 生 式 .: 


«if» — if <b expr> 
«if» — <b expr» 


后 一 条 产生 式 包含 了 缺少 放 首 部 的 情况 。 添 加 出 错 产生 式 时 必须 要 谨慎 处 理 ， 因 为 有 可 能 引入 分 析 冲 突 ， 
而 这 些 冲 突 又 必须 要 得 到 解决 。 

现在 ， 我 们 把 在 错误 记号 的 左边 插入 新 记号 的 办 法 与 删除 错误 记号 的 办 法 做 个 比较 。 正 常情 况 下 ， 
插入 将 优 于 删除 :一般 地 ， 在 用 户 输入 周围 建立 正确 的 程序 要 比 从 那个 输入 中 删除 一 部 分 要 安全 一 些 。 
实际 上 ， 在 某 些 称 为 可 通过 插入 校正 的 〈insert-correctable) 语言 里 ， 总 有 可 能 仅 通过 插入 操作 来 修复 任 
何 出 错 的 记号 序列 。Ada/CS 是 可 通过 插入 校正 的 语言 ， 因 为 它 的 程序 是 由 包 序 列 组 成 的 。 也 就 是 说 ,在 
Ada/CS 中 ， 除 结束 标记 以 外 的 任何 终结 符 都 可 被 生成 为 包 的 一 部 分 。 当 发 生 语 法 错误 时 ， 我 们 总 是 有 可 
能 完成 当前 包 的 分 析 并 将 出 错 符 号 生成 为 下 一 个 包 的 一 部 分 。 因 此 ， 任 何 语法 错误 都 可 以 通过 适当 的 记 
号 插入 而 得 到 修复 。 

插入 校正 对 恢复 算法 有 着 特殊 的 意义 ， 因 为 在 那些 算法 中 ， 揪 入 操作 所 带 来 的 简单 性 很 有 价值 。 即 ， 
一 个 总 能 正常 工作 且 通 常 工作 得 很 好 的 简单 、 便 宜 且 紧凑 的 恢复 算法 将 是 理想 的 算法 。 由 其 他 修复 操作 
而 非 插入 操作 所 引入 的 额外 复杂 性 在 恢复 算法 中 未 必 是 划算 的 。 在 另 一 方面 ， 错 误 修 复 算 法 通常 还 必须 
允许 删除 操作 《尽管 在 实践 中 ， 播 人 要 比 删除 普 遇 得 多 )。 | 





17.2.1 即时 错误 检测 


为 保持 最 广泛 的 修复 操作 ， 有 必要 确保 语法 分 析 器 在 尽 可 能 早 的 时 间 里 发 现 错误 。 理 想 情 况 下 ， 当 
错误 的 记号 首次 出 现在 超前 搜索 符 中 时 ， 我 们 就 可 以 发 现 相 关 的 语法 错误 。 我 们 称 在 首次 看 到 某 个 记号 
时 即 发 现 该 记号 为 非 东 的 语法 分 析 闫 具有 即 时 错误 检测 特征 (immediate error-detection property )。 但 是 ， 
普通 的 SLR(1)、LALR(1) 和 LL(1) 语 法 分 析 器 发 现 错误 的 时 机 要 稍 迟 一 点 一 一 即 在 试图 移入 非法 记号 的 
时 候 才 会 发 现 错误 。 错 误 检 测 时 的 这 种 轻微 延迟 能 够 对 可 利用 的 错误 修复 操作 的 范围 产生 巨大 的 影响 。 
考虑 图 17-7 中 所 示 的 文法 G;。 假 设 我 们 使 用 LL(1) 分 析 器 分 析 输 入 串 ID) … $。 所 发 生 的 分 析 栈 移动 
序列 是 : | 

S' > E$ > TE'$ => ID E'$ = E'$ => $ 


此 时 错误 被 发 现 。 发 生 最 后 一 次 移动 是 因为 ) € Follow(E')。 现 在 ， 因 为 分 析 栈 中 只 剩 下 $， 所 以 惟一 
可 能 的 修复 动作 就 是 删除 剩余 输入 中 所 有 一 直到 结束 标记 的 记号 。 这 是 一 个 相当 极端 的 做 法 ， 尤 其 是 当 
所 分 析 的 语言 是 可 通过 插入 校正 的 时 候 。 

正如 5.11 节 所 讨论 的 ， 我 们 在 实践 中 使 用 的 LL(1) 分 析 器 实际 上 是 强 LL(1) 分 析 器 。 强 LL(1) 分 析 器 在 
超前 搜索 符号 a 满足 a € Follow(A) 时 预测 产生 式 A 一 入。 而 a 是 否 实际 有 效 则 在 预测 后 才 加 以 判断 。 相 比 
之 下 ,完全 LL(1) 分 析 器 不 做 任何 预测 ， 除 非 已 知 超前 搜索 符号 是 有 效 的 。 强 LL(1) 分 析 器 所 需 的 分 析 表 
比 完全 LL(1) 分 析 器 所 需 的 分 析 表 要 明显 小 得 多 。 类 似 地 ，SLR(1)、LALR(1) 和 优化 的 LR(1) 分 析 器 也 不 
具备 完全 LR(D 分 析 器 的 即时 错误 检测 特征 。 
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图 17-7 文法 Gi 


尽管 即时 错误 检测 特征 很 有 价值 ， 但 因为 完全 LL(1) 或 完全 LR(1) 分 析 器 所 需 的 分 析 表 过 于 庞大 ， 所 
以 我 们 还 是 要 避免 使 用 它们 。 作 为 替换 办 法 ， 我 们 可 以 缓冲 分 析 移 动 和 由 超前 搜索 符号 引起 的 语义 例 程 
调用 。 如 果 该 符号 最 终 被 移 人 栈 中 ， 那 么 我 们 就 知道 它 是 合法 的 。 于 是 ， 我 们 可 以 清除 那些 被 缓冲 的 分 
析 移 动 并 执行 被 缓冲 的 语义 例 程 调 用 。 如 果 不 能 移入 该 超前 搜索 符号 ， 那 么 我 们 可 以 用 被 缓冲 的 分 析 移 
动 将 分 析 栈 恢复 到 首次 使 用 非法 的 超前 搜索 符号 时 的 那个 栈 的 配置 。 

一 般 地 ， 对 于 LL(1) 分 析 器 ， 我 们 将 做 出 的 预测 缓冲 在 一 个 栈 上 直到 出 现成 功 的 移入 为 止 ， 而 那 时 我 
们 才 可 以 清除 此 缓冲 栈 。 为 撤销 预测 ,分 析 栈 中 的 产生 式 的 右 部 可 被 替换 为 预测 它们 的 相应 产生 式 的 左 
部 符号 。 因 而 ， 在 前 面 的 例子 中 ， 我 们 就 可 以 缓冲 分 析 移 动 : predict E' 一 入 。 当 发 现 ) 是 非法 的 时 候 ， 
我 们 就 用 此 缓冲 来 撤销 那个 预测 ， 将 $ 替 换 为 E'$。 

类 似 地 ， 对 于 SLR(1)、LALR(1) 和 优化 的 LR(1) 分 析 器 ， 我 们 将 它们 归 约 所 用 的 产生 式 保 存在 一 个 栈 
中 。 为 撤销 某 个 归 约 操作 ， 我 们 从 分 析 栈 中 弹出 一 个 状态 ， 接 着 再 压 人 相应 产生 式 右 部 每 个 符号 的 后 继 
状态 。 例 如 ， 如 果 我 们 有 含 状态 s1 … sr 的 分 析 栈 (so 位 于 栈 顶 ) 而 且 希 望 撤销 产生 式 A 一 abc 的 归 约 ， 
那么 我 们 可 以 首先 弹出 状态 so 而 露出 状态 sn.1。 然 后 我 们 可 以 压 入 状态 Sn、 Sir» Sm2z， 其 中 go_to 
[s.a] = $n, go_tof nlib] = So. go to[ Sn J[c] = Ss. 

如 果 执 行 的 仅仅 是 错误 恢复 ， 那 么 通常 不 需要 缓冲 (尽管 性 能 可 能 会 降低 )。 但 如 果 试 图 使 用 错误 
修复 ， 那 么 我 们 就 推荐 缓冲 技术 (以 撤销 不 合适 的 预测 或 妇 约 )。(Mauney 和 Fischer[1981] 讨 论 了 另 一 个 
较 有 吸引 力 的 用 于 强 LLOD) 分 析 器 的 缓冲 技术 。 ) 


17.2.2 递归 下 降 分 析 器 中 的 错误 恢复 


Wirth (1976，5.9 节 ) 研究 了 一 种 可 用 于 递归 下 降 分 析 器 的 简单 、 一 致 的 错误 恢复 方法 。 递归 下 降 
分 析 中 的 每 个 分 析 过 程 被 设计 用 来 匹配 某 个 非 终 结 符 所 生成 的 终结 符 串 。 出 于 错误 恢复 的 目的 ， 我 们 给 
每 个 分 析 过 程 提 供 一 个 能 在 过 程 返 回 后 进行 匹配 的 符号 集合 。 此 集合 ， 即 follow_set ， 可 在 检测 到 错 
误 的 时 候 用 于 重新 闻 步 输入 。 如 果 有 必要 ， 分 析 过 程 可 以 跳 过 若干 输入 记号 直到 发 现 集 合 follow_set 
中 的 符号 为 止 。 此 时 分 析 过 程 可 以 较 安 全 地 返回 ， 因 为 我 们 知道 下 一 个 输入 符号 将 被 调用 过 程 所 匹配 。 

在 大 多 数 语言 中 有 诸如 begin 和 和 if 那样 非常 重要 且 不 能 被 跳 过 的 首部 符号 。 因 此 ， 我 们 把 集合 
header set 添 加 到 在 集合 follow_set 中 以 确保 首部 符号 能 被 保留 下 来 并 稍 后 由 后 续 的 分 析 过 程 匹配 。 
例如 ， 考 虑 下 面 的 Ada 程 序 片 段 : 

... if BthenA := 1 else … 

Ada 中 的 语句 都 必须 以 分 号 C) 结束 ， 但 此 例 中 我 们 可 不 想 为 搜索 这 个 符号 而 跳 过 else 部 分 。 将 else 包 
括 进 集合 header set 中 可 以 确保 与 then 部 分 相连 的 else 部 分 不 被 丢掉 。 

最 后 ， 因 为 可 能 存在 的 输入 错误 ， 分 析 过 程 不 能 肯定 它 自 己 一 定 会 匹配 当前 的 输入 。 为 此 ， 我 们 使 
Hivalid set ( 它 代表 所 有 期 望 的 合法 输入 ) 来 筛选 当前 输入 。 正 常情 次 下 ， 集合 valiqd_set 包 含 集合 
First(A) 的 成 员 ，A 是 分 析 过 程 匹 配 的 非 终结 符 。 如 果 A 可 以 产生 入 ， 则 集合 valid_set 还 可 包含 集合 
Follow(A) 的 成 员 。Wirth 建 议 在 每 个 分 析 过 程 的 入 口 处 调用 如 图 17-8 所 示 的 例 程 。 
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void check_input (terminal set valid set, 


terminal set follow set, 
terminal set header set) 
{ 
if (next token() < valid set) 
return; /* Input looks valid */ 
else ( 
syntax error(); /* Mark next token as illegal */ 
while (! (next token() € 
(valid set 4) follow set () header set))) 
skip token(): 
/* Skip this token; 
call scanner() to get next token. */ 





图 17-8 跳 过 非法 记号 的 算法 


在 调用 check_input( ) 例 程 后， 我 们 知道 hext_token( ) 或 者 有 效 ， 或 者 它 将 被 调用 过 程 继续 处 
理 。 无 论 哪 种 情况 ， 错 误 恢复 均 已 被 适当 地 分 解 到 了 单个 例 程 中 。 
我 们 对 递归 下 降 分 析 器 所 做 的 其 他 主要 的 修改 涉及 由 过 程 match( ) 的 调用 所 发 现 的 语法 错误 。 我 们 
知道 ， 调 用 match(T) 试图 无 条 件 地 将 next_token( ) 匹配 为 TY。 如 果 匹 配 失败 ， 我 们 就 发 现 一 个 语法 错 
| 误 。 为 恢复 由 match( ) 发 现 的 语法 错误 ， 我 们 调用 syntax_erroz() 来 标记 此 错误 并 返回 。 而 
| next token( ) 无 需 改变 并 且 它 将 被 重新 考虑 ， 要 么 匹配 要 么 在 返回 前 被 跳 过 。 实 际 上 ， 因 为 
match(T) 知道 下 一 个 记号 必须 是 TY， 所 以 我 们 可 以 在 它 不 匹配 的 时 候 插入 记号 TY。 作为 特殊 情况 ， 如 果 
还 有 任何 剩余 ，match(SCRANEOF ) 将 跳 过 所 有 的 剩余 输入 。 它 这 么 做 是 因为 在 匹配 文件 结束 符 前 ， 所 有 
的 输入 都 必须 被 处 理 和 消耗 掉 。 
syntax_error() 标 记 那 些 被 认为 是 非法 的 记号 。 通 常 ， 一 些 连 续 的 记号 会 被 这 样 标 记 。 而 语法 错 
误 信 息 仅 为 第 一 个 被 标记 的 记号 而 非 为 其 他 剩余 被 标记 的 记号 而 产生 。 我 们 其 实 并 不 知道 那些 剩余 的 已 
标记 的 输入 是 否 非法 ， 我 们 所 知道 的 只 是 它们 已 被 跳 过 。 有 时 ， 我 们 会 为 第 一 个 未 被 标记 的 记号 产生 一 
条 信息 《“ 分 析 已 恢复 ”) 以 强调 那些 中 间 的 符号 已 被 分 析 器 所 忽略 。 | 
作为 示例 ， 考 虑 图 17-9 中 的 分 析 过 程 。 该 例子 曾 出 现在 第 2 章 中 ， 现 在 添加 了 错误 恢复 的 内 容 。 








void statement_list (terminal_set follow set) 


check_input (SET_OF ( ID, READ, WRITE ), 
follow set, 
SET OF( SCANEOF )):; 
statement (follow set); 
while (TRUE) ( 
switch (next token()) ( 
case ID: 
case READ: 
case WRITE: 
| statement (follow set); 
break; 
default: 
return; 
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在 例 程 statement_1list() 的 人口 处 ,我 们 使 用 例 程 check_input() 来 篇 选 当前 输入 。 
valid set 是 First(<statement_list>)。 follow set 则 是 作为 参数 被 接收 ， RUÉXIMicrox READ FE Ze 
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Hj: 此 集合 总 是 单元 集 (end)。 在 内 容 较 丰富 的 语言 中 ， 和 集合 follow_set 将 依赖 分 析 过 程 被 调用 时 的 
上 下 文 。 因 此， 在 Ada 语 言 中 ， 如 果 正 被 匹配 的 <statement list> 是 if 语 句 的 then 部 分 ， 则 集合 
follow set 可 以 包含 else。 

集合 header_set 中 包含 符号 Eof， 因 为 我 们 不 想 跳 到 输入 结束 符 的 后 面 。 该 集合 也 可 以 包含 诸如 
ID 和 READ 那 样 的 语句 首部 ， 但 这 是 多 余 的 ， 因 为 那些 符号 已 出 现在 集合 valiqd_set 中 且 不 可 能 被 跳 过 。 
在 statement list() 过 程 体 中 的 statement( ) 的 调用 被 赋予 follow set 参数， 这 是 因为 正在 匹配 的 
语句 可 能 是 语句 列表 中 的 最 后 一 句 。 实 际 上 ， 还 可 以 在 follow_set 中 添加 First(<statement>)， 但 这 也 
没有 必要 ， 因 为 例 程 statement( ) 将 立即 匹配 那些 在 First(<statement>) 中 的 符号 。. 

这 种 方法 已 应 用 于 实践 而 且 效 果 还 可 以 。 像 所 有 的 紧急 方式 的 处 理 技 术 一 样 ， 它 的 主要 缺 后 在 于 它 
相当 随意 地 跳 过 输入 符号 ， 从 而 试图 将 当前 输入 与 合适 的 分 析 过 程 同步 。 对 于 艇 套 结 构 而 言 ， 这 种 跳 过 
输入 符号 的 方法 就 不 能 很 好 地 工作 ， 这 也 就 是 为 什么 我 们 尝试 添加 首部 符号 集合 的 原因 。 

一 直 以 来 ， 很 少 有 人 做 递归 下降 的 错误 修复 工作 。 其 问题 在 于 分 析 状 态 是 隐 式 地 存储 在 分 析 过 程 的 
调用 栈 里 ， 而 且 不 容易 决定 何 种 修复 动作 可 作为 有 效 措施 而 被 接受 。 此 外 ， 由 于 分 析 过 程 里 夹杂 着 语法 
分 析 和 语义 处 理 ， 因 而 当 不 止 一 个 修复 动作 看 似 可 能 的 时 候 就 不 知道 该 测试 执行 哪 一 个 了 。 


17.2.3 LL(1) 分 析 器 中 的 错误 恢复 


针对 递归 下 降 分 析 器 所 开发 的 错误 恢复 方法 可 以 用 在 LL(1) 分 析 器 中 。 图 17-10 中 所 示例 程 将 在 
LL(1) 分 析 器 驱动 程序 发 现 语法 错误 的 时 候 调用 ， 它 跳 过 若干 输入 符号 并 弹出 栈 符 号 直到 语法 分 析 可 以 
重新 开始 为 止 。 


/* 
* Will this combination of stack top 
* and token cause a syntax error? 


*/ 


static boolean parse error (symbol stack top, 
terminal current token) 


if (stack topeV,) 

return T[stack top] {current token] == ERROR; 
else 

/* stack topeV, */ 

return stack top != current token; 


} 


void ll recovery (void) 


/* Let S be the parse stack; 
let a be the current input token. */ 
while (parse error (top(S), a)) ( 
if (top(S)eV,) ( 
/* topl() "peeks" at top(pop(S)) */ 
if (parse error(topl(S), a) 
&E ! (a c header set)) 
scanner(a); /* Skip current token */ 


else /* Remove top stack symbol */ 
pop (S); 
} eise { /* top(SjeVv, */ 
if (top(S) == SCANEOF) 
scanner (& a); 


/* Never skip past endmarker */ 
else 





图 17-10 用 于 LL 分 析 器 的 简单 的 错误 恢复 例 程 
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pop (S) : 
/* Match expected terminal; */ 
/* then try again */ 





图 17-10 (8%) 


11_recovery() 必 须 重 新 设置 分 析 器 以 便 恢复 语法 分 析 。 它 可 以 通过 跳 过 输入 符号 或 弹出 分 析 栈 
条 目 来 达到 此 目的 。 如 果 分 析 栈 的 栈 顶 是 终结 符 〈 它 不 能 匹配 当前 的 超前 搜索 符 ) ， 我 们 就 将 此 栈 顶 漳 
出 而 插入 所 需 的 终结 符 。 如 果 栈 顶 是 非 终结 符 ， 我 们 要 么 将 其 弹出 栈 顶 ， 要 么 删除 当前 的 超前 搜索 符 。 

如 果 在 弹出 分 析 栈 有 关内 容 后 可 以 恢复 语法 分 析 ， 那 么 我 们 就 进行 此 类 操作 。 这 种 情形 类 似 于 当 - 
个 分 析 过 程 返回 后 它 的 调用 者 才能 恢复 语法 分 析 一 样 。 如 果 这 种 出 栈 操作 不 能 使 语法 分 析 得 以 恢复 ， 同 
时 当前 的 超前 搜索 符 不 是 被 保护 的 首部 符号 ， 我 们 就 可 以 删除 这 个 当前 的 超前 搜索 符 。 受 保护 的 符号 是 
不 能 被 删除 的 ; 相反， 我 们 要 弹出 分 析 栈 中 有 关内 容 以 便 受 保护 的 符号 可 以 匹配 某 些 位 置 较 深 的 栈 符号 。 

这 种 恢复 算法 完全 是 启发 式 的 。 有 时 它 从 栈 中 弹出 条 目 ， 强 制 进行 匹配 ; 有 时 它 会 跳 过 输入 ， 和 希望 
能 和 下 一 个 记号 匹配 。 我 们 需要 用 集合 header_set 来 防止 跳 过 那些 重要 的 记号 ， 但 我 们 却 没 有 精确 地 
定义 它 。 在 17.2.4 节 里 ， 我 们 提出 一 个 更 形式 化 的 有 关 LL(1) 恢 复 和 修复 的 方法 。 特 别 地 ， 在 那个 方法 中 
我 们 做 了 更 加 仔细 的 分 析 以 确定 何 时 删除 或 插 和 符号， 而 且 当 存在 多 种 可 能 的 修复 动作 时 我 们 还 引入 了 
一 个 最 佳 选 择 的 概念 。 


17.24 FMQ LL(1) 错 误 修复 算法 
我 们 现在 考虑 由 Fischer、Milton 和 Quiring (1980) 提出 的 FMQ 错 误 修复 算法 。 这 是 一 种 可 自动 产 


4k &j (automatically generable) 错误 修复 算法 ， 设 计 它 是 用 来 与 可 通过 插入 校正 的 LL(1) 文 法 一 起 工作 。 


在 17.2.5 节 里 ， 我 们 给 出 了 可 以 和 任意 LL() 文 法 一 起 工作 的 该 算法 的 一 种 扩展 。 

因为 这 种 算法 操作 在 可 通过 插入 校正 的 语言 上 , 因而 它 可 以 将 它 的 修复 动作 限制 为 终结 符 串 的 插 和 人 。 
这 一 点 和 先前 那些 偏好 删除 输入 符号 的 技术 形成 鲜明 的 对 比 。 这 种 只 进行 插入 的 方法 ， 其 优点 是 在 已 有 
记号 的 周围 进行 修复 ， 从 而 也 就 无 需 定义 那个 受 保护 的 首部 记号 集合 。 | 

如 果 一 个 语言 是 可 通过 插 人 校正 的 ， 那 么 对 于 任何 语法 错误 (S tx … 和 S xa 
xEVi, ae€V), 我 们 总 可 以 选择 并 使 用 终结 符 串 y € V* 达 到 修复 的 目的 (So xya …)。 正 如 先前 所 
提 及 的 ， 一 些 典 型 的 程序 设计 语言 都 是 非常 接近 于 可 通过 插入 校正 的 。 

接 下 来 ， 我 们 假设 我 们 能 够 尽 可 能 快 地 发 现 语法 错误 〈 即 ， 当 错误 符号 被 首次 用 作 超 前 搜索 符 的 时 
候 就 发 现 这 个 错误 )。 因 为 使 用 的 是 普通 的 LL(1) 分 析 器 ， 所 以 我 们 还 可 以 假设 某 个 先前 描述 过 的 技术 
( 如 缓冲 技术 ) 可 被 用 来 将 分 析 栈 恢复 到 错误 符号 首次 作为 超前 搜索 符 出 现时 已 经 存在 的 栈 配 置 。 

和 许多 修复 和 恢复 技术 不 同 ，FMQ 算 法 被 证 实 具 有 如 下 优良 特性 : 

。 它 可 以 修复 任何 输入 。 

。 它 的 修复 动作 是 通过 插入 代价 可 调 的 。 

。 它 完全 是 表 驱 动 的 ， 因 此 可 被 自动 生成 。 
它 的 时 空 需求 是 线性 的 。 

. 志 选 择 的 修复 动作 总 是 局 部 最 优 的 。 

为 控制 修复 算法 所 做 出 的 插入 选择 ， 我 们 将 专门 使 用 一 个 描述 插入 代价 的 整数 向 量 。 即 ，VYa € Vi, 
我 们 有 C[a] > 0。C[a] 是 插入 符号 a 的 代价 。C[a] 的 值 越 大 ， 符 号 a 被 插入 的 可 能 性 越 小 (如果 有 那么 一 
个 选择 的 话 )。 
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插入 入 等 价 于 什么 也 不 插入 ， 因 此 CIX] = 0。 类 似 地 ， 结 束 标 记 总 是 最 后 被 分 析 的 记号 且 从 不 需要 
被 插入 。 因 此 ，C[$] = mw。 最 后 ， 我 们 引入 一 个 新 符号 ? EV, WEC] = 9. XT IX, = Xn (n20), 
CIX; = X4 = C[X1] + … + CIXqj。( 在 我 们 的 算法 中 ， 我 们 将 使 用 函数 C(a) 来 返回 用 于 任意 终结 符 串 的 
C[A]fÉ ). | 
为 驱动 修复 算法 ， 我 们 事先 计算 并 存储 以 下 两 张 表 : 
(DS: V > V | 
S[A] = 最 小 代价 z € Vi, HEA —"z 
且 对 于 a €V., S[a] =a. 
(2Q)E:VxV,— VU? 
对 于 AE Vp: E[Alla] = ?， 如 果 A 六 + a 
否则 ，E[Aj[a] = 最 小 代价 w € V+， 使 得 A 一 * wa …。 
对 于 a €V: E[a][b] = ?如 果 a=#b 
E[a][a] = 入 
非 正式 地 ，S[X] 给 出 可 由 X 推 出 的 最 小 代价 串 ， 而 E[X][a] 则 给 出 允许 a 可 由 X 推 出 的 最 小 代价 前 绥 。 
我 们 可 以 很 容易 地 计算 这 两 张 表 并 把 它们 保存 在 内 存 中 或 文件 里 青 到 修复 算法 需要 使 用 它们 。 使 用 
这 两 张 表 ， 我 们 可 以 定义 一 个 如 图 17-11 所 示 的 相当 简单 的 错误 修复 算法 。 


terminal string find insert(stack of symbol parse stack, 
terminal a) 


{ 
/* a is the error symbol] */ 
terminal string insert, least cost; 


insert z "?"; 
least cost = i; 
for (i = 0; i <= depth(parse stack) 一 i; i++) { 
if (C(least cost) >= C(insert)) 
break; 
/* No lower cost insertion can be found */ 


if (C(least cost 8 E[parse stack[top-i)]][a]) 
« C(insert)) ( 
/* À better insertion has been found */ 
insert = least cost @ E[parse stack[top-i]][a]: 
) 
least cost = least cost 8 S(parse stack[top-i]]; 
) 


return insert; 





图 17-11 计算 LL(1) 最 小 插入 代价 的 算法 


在 本 章 剩 余部 分 提出 的 算法 采用 了 比 我 们 先前 所 使 用 的 更 加 高 级 的 伪 代 码 描述 。 该 描述 添加 了 以 下 
新 的 特征 : 简单 的 串 赋 值 通过 符号 = 进行 ; 串 比 较 通 过 == 进行 ; 运算 符 @ 执 行 串 连接 操作 ;通过 指定 
片段 的 上 下 界 将 数组 分 段 。 

find insert() 简 单 地 沿 LL(1) 分 析 栈 向 下 搜索 以 寻找 推出 错误 符号 a 的 最 便宜 的 方式 。 因 为 LL(1D) 
文法 是 可 通过 插入 校正 的 ， 所 以 我 们 知道 某 些 栈 符号 一 定 可 以 推出 a。 

作为 示例 ， 让 我 们 再 次 考虑 那个 能 生成 简单 表达 式 的 文法 G1 ( 见 图 17-7)。 首 先 ， 我 们 必须 确定 插 
入 代价 。 而 关于 如 何 选择 代价 却 没 有 固定 的 规则 。 一 般 地 ， 如 果 某 些 终结 符 的 插入 不 合乎 要 求 ， 则 它们 
的 代价 会 比 那 些 插入 后 无 任何 副作用 的 其 他 符号 的 代价 更 高 一 些 。 在 文法 G1 里 ，1D 的 插入 是 我 们 所 不 想 
要 的 ， 因 为 标识 符 一 般 都 带 有 语义 的 内 容 。 类 似 地 ， 符 号 ( 的 插入 也 不 具有 吸引 力 ， 因 为 稍 后 我 们 可 能 
将 不 得 不 插入 与 之 匹配 的 符号 ) 。 尽 管 如 此 ， 符 号 ) 或 + 的 插入 却 少 有 麻烦 。 这 种 分 析 可 导致 如 图 
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17-12 所 示 的 插入 代价 。 

一 旦 选择 了 插入 代价 ， 就 可 以 分 别 计算 S 表 ( 见 图 17-13 ) ( 2 
MER ( 见 图 17-14)。 现 在 假设 我 们 正在 分 析 ID +) + ID $。 
在 遇 到 ) 时 我 们 检测 到 语法 错误 。 此 时 ，LL(1) 分 析 栈 包含 T 
E' $。 现 在 将 调用 例 程 find_insert()， 而 出 错 符号 是 )。 
文法 G1 是 可 通过 插入 校正 的 ， 因 此 ) 必定 可 由 栈 中 某 个 符号 





图 17-12 文法 G1 的 插入 代价 







推出 。 首 先 ， 考 虑 栈 顶 符号 T。 而 EfT[9] = (ID ; 此 插入 的 
代价 为 4。 接 下 来 ， 考 虑 E'。S[T] = IDRE[E' ][ )'] = + S ID $ 
( ID。 因此，ID + ( ID 也 是 一 个 可 能 的 插入 串 ， 但 它 由 于 代 E D 
价 过 高 (为 7) 而 遭 拒绝 。 最后， 考虑 的 是 $， 但 它 却 不 能 扒 T ID 


出 错误 符号 。 因 此 ， 最 终 返 回 的 最 小 代价 的 插入 是 (ID. 图 17-13 文法 G1 的 S 表 


= 
? 
? 
(ID (Ib ? 


图 17-14 文法 G1 的 E 表 


尽管 算法 find_insert() 相 当 简 单 ， 但 我 们 还 是 能 很 容易 地 证 明 先 前 列 出 的 有 关 特 征 : 

702 。 它 能 修复 任何 输入 ， 因 为 每 次 find_insert( ) 的 调用 都 允许 接受 至 少 一 个 或 多 个 输入 符号 。 

° r BLE: FETED REST EE A SAREA EE AE. 

它 完 全 是 由 可 自动 生成 的 S 表 和 E 表 来 驱动 的 。 

。 它 的 执行 时 间 可 确保 在 线性 范围 内 。 真 实 的 分 析 器 通常 使 用 深度 有 限 〈bounded-depth) 分 析 栈 

(M, 分 析 栈 的 最 大 深度 是 某 个 实现 常量 )。 对 于 深度 有 限 的 分 析 栈 而 言 ，finqd_insert() 的 一 次 

调用 至 多 花费 有 限 的 时 间 ， 而 且 O(Ixl) 次 调用 仅 需 O(Ixl) 的 时 间 。 即 使 在 允许 分 析 栈 有 O(xb) 的 座 

度 的 一 般 情 况 下 ， 我 们 也 可 以 创建 针对 所 有 的 调用 仅 需 要 O(xl) 时 间 的 新 版 本 的 finq_insert() 

( 见 练习 16 ) 。 

。 由 S 表 和 E 表 所 选择 的 插入 是 局 部 最 优 的 〈locally optimal)， 因 为 不 存在 比 它 们 所 做 的 选择 具有 更 

低 揪 入 代价 且 让 分 析 器 接受 错误 符号 的 插入 动作 。 

很 明显 ， 此 算法 的 简单 性 也 使 得 它 可 以 有 非常 高 效 的 实现 。 另 外 ， 如 果 将 S 表 和 E 表 保存 在 文件 中 ， 
那么 正确 的 程序 几乎 不 需要 为 编译 器 内 建 的 错误 修复 功能 付出 任何 东西 。 

自然 有 人 会 问 由 find_insert( ) 实 施 的 修复 操作 究竟 好 在 哪里 。 我 们 根据 测试 情况 所 得 出 的 答案 
R: 相当 得 好 ， 但 并 不 总 是 最 好 。find insert() 的 优点 可 以 总 结 如 下 : 

。 由 于 其 性 能 良好 且 极 其 简单 ， 因 此 它 是 一 种 优秀 的 错误 恢复 技术 。 

。 它 是 一 种 不 错 的 、 但 不 是 最 好 的 修复 算法 。 正 如 我 们 将 要 看 到 的 ， 对 find_insert( ) 所 做 的 一 些 

简单 扩展 可 以 极 大 地 提高 它 的 修复 质量 且 不 会 过 多 增加 其 代价 或 复杂 性 。 

如 果 有 必要 的 话 ，S 表 可 以 采取 比 我 们 县 前 所 讨论 的 方法 更 为 紧凑 的 方式 来 存储 。 也 就 是 说 ， 我 们 
与 其 在 终结 符 串 的 表 上 建 索引 ， 但 不 如 将 每 个 非 终结 符 和 从 它 开始 能 进行 最 小 代价 推导 的 产生 式 存 放 在 
一 起 。 当 需要 S[A] 的 时 候 ， 即 进行 从 A 开始 的 最 小 代价 的 推导 。S[A] 的 生成 很 快 ， 且 仅 需 存储 一 张 从 非 
终结 符 到 产生 式 的 映射 表 。 此 外 ，E 表 的 条 目 也 可 以 在 需要 时 从 S 表 的 条 目 和 文法 产生 式 中 计算 得 到 
(参见 练习 7b)。 这 种 计算 也 很 快 ， 只 消 片刻 即 可 建立 E[X][a]， 这 里 的 a 是 一 个 特定 的 错误 符号 。 








”现实 世界 四 的 语法 分 析 和 


17.2.5 在 FMQ 修 复 算 法 中 添加 删除 操作 


一 个 高 质量 的 错误 修复 算法 必须 不 时 地 做 一 些 删 除 以 获得 最 佳 的 可 能 的 修复 。 而 且 ,， 如 果 人 允许 删除 ， 
我 们 可 以 将 FMQ 算 法 应 用 于 任意 的 LL(1) 文 法 而 不 仅仅 是 可 通过 插入 校正 的 LL(1) 文 法 。 

现在 ， 我 们 研究 如 何 将 删除 操作 添加 到 FMQ 算 法 中 。 就 像 我 们 为 插入 所 做 的 ， 我 们 也 假设 有 整数 向 
量 D， 其 中 对 a E Vi，Dia] 是 删除 a 的 代价 。 很 自然 地 ， 我 们 有 Df$] = 和 DI[X, … X] = DDG] + … + D[Xn]。 
类 似 地 ，D(a) 返 回 任意 终结 符 串 的 D[a] 值 。 假 设 剩 余 的 输入 符号 串 是 by s bm， 其 中 bi 是 出 错 符号 。 为 
使 D1 … bn 可 用 ， 有 必要 扫描 剩余 输入 并 把 结果 记号 保存 在 一 个 队列 里 。 回 想 一 下 ， 修 复 动 作 是 由 两 个 
参数 决定 的 : delete ， 待 删除 的 输入 符号 数 ; insert， 在 删除 后 待 插入 的 串 。 可 以 使 用 如 图 17-15 所 示 的 
算法 来 获得 delete 和 insert 的 最 小 代价 值 。 即 ， 使 用 此 算法 可 以 计算 下 式 的 最 小 值 : 


Min Min 1 {D(b; - - bi*Cly)Ixyb,, --- eL(G)) 
im vey? 


其 中 ， 输 入 串 为 xb; … Dm, insert = y, delete = i. 


void ll repair(terminal string *ins, int *d) 
i { 
/* 
* Remaining input = b, - * b. 
* Optimal repair is to delete d tokens, 


* then insert string ins. 


*/ 


*ing = "?"; 
*d z 0; 
for (i = 1; i <= length(b); i++) { 
if (D(b[1 .. i-1]) »- C(*ins) + D(b[1 .. *d))) 
break; 
/* No lower cost repair is possible */ 


if (C(find insert (parse stack,b[i])) 
+ D(b[1 .. i-1]) 
< C(*ins) + D(b[1 .. *d))) í 
/* Better repair found */ 
*ins = find _ insert (parse stack,b[i]): 
*d z i-1; 





图 17-15 一 个 计算 LL(D) 最 小 修复 代价 的 算法 


作为 示例 ， 我 们 再 次 考虑 在 17.2.4 节 中 用 过 的 那个 例子 。 现 在 ,我 们 必须 既定 义 删除 代价 又 定义 插 
入 代价 ， 如 图 17-16 所 示 。 为 简单 起 见 ， 我 们 使 用 相同 的 插入 和 删除 代价 ; 而 在 较 复 杂 的 文法 中 ， 特 定 
符号 的 插入 和 删除 代价 通常 是 不 一 样 的 。 

当 使 用 LL(1) 分 析 器 分 析 串 ID +) + ID $ 时 ， 我 们 在 遇 到 ) 时 即 
检测 到 语法 错误 并 在 那 时 调用 11_repair()。 我 们 首先 考虑 零 个 符 
号 的 删除 ， 然 后 再 考虑 一 个 、 两 个 …… 符 号 的 删除 ， 此 过 程 将 持续 
到 我 们 确信 已 找到 最 小 的 修复 代价 为 止 。 如 果 删 除 零 个 符号 ， 也 就 
等 于 我 们 只 进行 插入 修复 。 正 如 我 们 在 上 一 节 所 知道 的 ， 修 复 此 错 图 17-16 文法 G1 的 删除 代价 
误 的 最 小 代价 的 插入 串 是 ( ID ， 其 代价 为 4。 而 删除 ) 的 代价 为 1。 

ME, + 被 认为 是 错误 符号 ， 且 find_insert( ) 建 议 插入 符号 D， 其 代价 为 2。 此 次 修复 的 总 代价 是 删 
除 代价 加 上 插入 代价 ， 其 结果 为 3。 这 个 代价 比 只 进行 插入 修复 的 代价 要 改进 一 些 。 接 下 来 ， 我 们 考虑 ) 
+ 的 删除 ， 这 个 代价 为 2。 错 误 符号 现在 是 ID， 且 find_insert() 报 告 最 小 代价 的 插入 囊 为 (插入 和 等 
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价 于 什么 也 不 插入 。) 此 次 修复 的 总 代价 为 2， 这 又 是 一 次 改进 。 再 接 下 来 ， 我 们 考虑 删除 ) + ID ， 但 这 
个 删除 的 代价 为 4 且 不 能 带 来 一 个 更 便宜 的 修复 。 因 此 ，11_repair( ) 最 终 选 择 了 删除 ) + 和 插入 入 作为 
最 佳 的 修复 动作 。 | 

算法 11_repair() 倒 是 非常 的 简洁 易 懂 ， 但 它 的 最 差 情况 时 间 界 限 却 是 O(Ixi?)。 这 里 ， 深 度 有 限 
栈 的 假设 不 再 起 作用 ; 针对 O(Ixl) 个 错误 中 的 每 一 个 错误 ， 我 们 可 能 要 反复 地 处 理 剩余 输入 ， 且 我 们 可 
能 需要 查看 所 有 的 剩余 输入 。 然 而 ， 对 于 实际 感 兴趣 的 例子 ， 我 们 可 以 证 明 那 个 O(Ixl?) 的 执行 时 间 不 会 
发 生 。 特 别 地 ， 再 次 假设 一 个 深度 有 限 的 分 析 栈 且 对 Va € Ve, Diajo (在 一 般 情况 下 ，D[a]=0 是 可 能 
的 ， 但 不 是 非常 有 用 一 一 它 使 删除 太 容易 了 )。 可 以 证 明 ， 一 个 给 定 的 输入 符号 ， 在 11_repair() 的 多 
次 连续 调用 后 , 至 多 可 以 被 考虑 删除 常量 次 , 并 且 由 此 可 达 线 性 。 通过 使 用 更 复杂 版 本 的 11_repair()， 
我 们 可 以 证 明 一 般 情况 (O(Ix) 的 楼 深度 ， 人 允许 DIaj=0) 也 具有 线性 特征 (Fischer、Mauney 和 Milton 
1979 ) 。 

在 实践 中 ， 我 们 当然 不 会 在 调用 11_repair( ) 时 扫描 并 排列 所 有 的 剩余 输入 。 相 反 ， 在 需要 考虑 
某 些 输入 符号 的 时 候 ， 我 们 将 渐 增 式 地 扫描 并 排列 记号 。 即 ， 要 么 立即 删除 一 个 记号 (因为 没有 使 它 成 
为 合法 输入 的 插入 操作 )， 要 么 只 检查 少量 的 输入 记号 并 把 它们 保存 在 分 析 重新 启动 点 之 上 (以 便 验证 
不 存在 更 小 的 修复 代价 )。 

当 允 许 删除 时 ，FMQ 修 复 操作 的 质量 将 变 得 非常 好 。 这 种 方法 的 “闪光 点 ”其 实 就 在 于 它 易 于 使 
用 。 编 译 器 的 作者 只 需要 指定 插入 和 删除 的 代价 向 量 一 一 其 余 的 工作 均 可 自动 完成 。 当 然 ，LL(1) 错 误 
修复 和 恢复 方法 的 简单 性 和 效率 也 是 促成 我 们 在 现实 世界 编译 器 中 使 用 LL(1) 的 主要 因素 。 


17.2.6 FMQ 算 法 的 扩展 


通常 ， 可 以 通过 将 修复 分 成 优秀 (excellent)、 朗 好 (good) 和 较 差 (poor) 三 个 等 级 来 评价 一 种 
错误 修复 算法 的 好 坏 。 优 秀 的 修复 正 是 那些 人 们 所 期 望 做 到 的 。 和 良好 的 修复 虽 不 是 那些 人 们 所 期 望 的 但 
也 是 较 合 理 的 。 较 差 的 修复 显然 要 比 人 们 所 期 望 做 到 的 差 ， 而 且 它 们 和 常常 会 导致 随后 的 虚假 错误 。 

FMQ 算 法 经 过 一 整套 标准 的 测试 (Ripley 和 Druseikis 1978)， 产 生 大 约 28% 的 较 差 的 修复 。 很 明显 ， 
我 们 希望 减少 这 一 数字 。( 和 良好 的 修复 与 优秀 的 修复 之 间 的 区 分 往往 因 人 而 异 ， 但 代价 的 调整 有 助 于 使 
较 好 的 修复 变 得 更 好 。) 

很 多 研究 人 员 (Graham、Haley 和 Joy 1979; Burke 和 Fischer 1982) 均 得 出 结论 ， 即 修复 的 验证 在 
过 滤 那 些 较 差 的 修复 时 特别 有 用 。 为 验证 一 个 修复 动作 ， 语 法 分 析 器 将 被 重新 启动 (而 语义 处 理 则 被 禁 
止 )。 如 果 语 法 分 析 器 能 够 接纳 最 小 数目 的 记号 而 不 引起 语法 错误 ， 那 么 此 次 修复 即 被 验证 有 效 并 可 以 
实际 用 于 输入 的 修复 。 如 果 被 提议 的 修复 没 能 通过 验证 ， 那 么 我 们 就 会 拒绝 它 并 考虑 其 他 的 修复 。 

Mauney (1982) 将 局 部 最 小 代价 的 概念 推广 到 了 区 域 最 小 代价 的 修复 。 在 区 域 最 小 代价 修复 中 ， 
代价 被 最 小 化 至 程序 中 国定 大 小 的 区 域内 。 区 域 中 可 以 包括 错误 的 修复 以 及 为 验证 修复 所 包含 的 合适 的 
上 下 文 。 区 域 中 也 可 以 包含 两 个 或 多 个 相连 错误 的 修复 。Mauney 发 现 ， 在 使 用 大 小 为 5 个 记号 的 区 域 时 ， 
采用 Ripley-Druseikis 测 试 集 所 得 的 较 差 修复 的 百分比 可 以 减 至 9% 以 下 。Mauney 提 议 的 算法 由 于 代价 过 
高 而 不 能 用 于 普通 的 编译 器 中 ， 但 它 确 实 让 我 们 看 到 了 验证 修复 所 带 来 的 改进 机 会 。 

在 EMQ 修 复 算法 中 加 入 验证 修复 的 机 制 并 不 是 件 难 事 。 可 以 将 LL 分 析 栈 和 一 个 待 尝 试 修复 的 前 组 馈 
送 到 一 个 骨架 型 分 析 器 中 ， 由 它 最 终 确 定 是 接受 还 是 拒绝 此 修复 。 我 们 可 用 图 17-17 中 那个 基于 
11 driver() 的 例 程 来 验证 修复 。 

17.2.5 节 里 的 11_repair() 可 被 推广 至 validated_11 repair()， 如 图 17-18 所 示 。 这 两 个 例 程 
除了 validated_ 11_repair() 在 修复 被 接受 前 需要 v+1 个 符号 验证 外 ， 其 余 的 都 基本 相同 。 

validated ll repair( ) 要 求 在 将 插入 操作 包含 进 一 个 修复 前 必须 要 对 其 加 以 验证 。 图 17-19 中 所 示 
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的 例 程 find_validated insert( ) 计 算 允 许 符 号 串 validation prefix 在 分 析 重 启 后 被 接受 的 最 小 代价 
插入 。 在 例 程 fijnd_validated_insert() 的 设计 中 ， 需 解决 的 问题 是 如 果 某 个 最 小 代价 插入 被 验证 检 


查 所 拒绝 ， 我 们 该 怎么 办 ?答案 是 ， 在 有 验证 的 情况 下 ， 我 们 需要 在 找到 合适 的 修复 前 先 考 虑 一 系列 代价 
EPH TT SSH A o 


boolean ll validate (stack_of symbol parse stack, 
terminal string prefix) 


{ 
 /* If all of prefix can be parsed, 
it is considered validated. */ 


i = 0; /* Initial position in prefix string */ 
while (i < length (prefix) && depth(parse stack) > 0) { 
if (top(parse stack)ceV,) í 
if (T[top(parse stack) | [prefix[i]] == 
X Y, - - Y.) 
/* Expand nonterminal */ 
Replace top(parse stack) with Y,...Y,; 
else 
return FALSE; 
/* Validation attempt has failed. */ 


} else { /* top(íparse stack)eV, */ 
if (top(parse stack) == prefix[i]) { 
poP(parse stack); /* Match worked. */ 
itt; 
) else 
return FALSE; 
/* Validation attempt has failed. */ 


) 


/* The whole prefix was correctly parsed. */ 
return TRUE: 





图 17-17 一 个 验证 LL 修 复 的 算法 


void validated 1) repair(terminal string *ins, 
int *d, int v) 


{ 


Remaining input = b, - 

Optimal repair is to delete d tokens, then insert 
string ins. v is a validation count: we must 
validate the repair on b; ° ' ' bau 


*/ 


*ins - "?"; 
td = 0; 
for (i = 1; i <= length(b); i++) { 
if (D(b[1 .. i-1]) >= C(*ins) + D(b[1 .. *d1)) 
break; 
/* No lower cost repair is possible */ 


len = min (i+v, length (b)); 
if (C(find_- validated | insert(parse stack,b[i .. len])) 
+ D(b[1 .. i-1]) < C(*ins) + D(b[1 .. *d])) í 
/* Better repair found */ 
*ins = find validated | insert (parse ; stack, 
b[i .. len]): 


*d = i-1; 





图 17-18 一 个 计算 已 验证 的 LL 修复 的 算法 
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terminal_string 
find validated insert(stack of symbol parse stack, 
terminal string validation prefix) 
{ 
/* 
* Find a least-cost insertion that allows 
* the validation prefix to be accepted. 
*/ 
terminal string insert, least cost, t; 
terminal a - validation prefix[(0]; 
auto int last soln[depth(parse stack)] - (/* all Os */); 
int soln i; /* i value used in least-cost solution */ 





/* Loop until a validated insertion is found. */ 
while (TRUE) ( 

insert = "?"; 

least cost = A; 

for (i = 0; i <= depth(parse stack) - 1; i++) { 

if (C(least cost) >= C (ánsert)) 
break; 

/* No lower cost insertion can be found */ 






t = least cost @ 
E[parse stack[top-il]][a][last soln[ill: 
if (C(t) « C(insert)) { 
/* À better insertion has been found */ 
insert = t; 
soln i = i; 
) 
least cost - least cost & S[parse stack[top-i]]; 
) 





/* Now try to validate insert */ 
if (insert == "?") 
return insert; 
/* Failure return; */ 
/* no validated insertion found */ 
else if (ll validate(parse . stack, 
insert @ validation prefix)) 










return insert; 
else 

last soln[soln i)++; 
/* Record rejected solution and try again */ 


图 17-19 一 个 计算 已 验证 的 LL 插入 的 算法 


我 们 可 以 推广 E 表 以 包含 第 三 个 参数 (索引 )， 一 个 整数 |。 非 正式 地 ，E[Aj[a] 则 是 允许 a 可 被 A 推导 
出 的 第 i 个 最 便宜 的 前 级 。 即 : 


E: Vx Vex N — V'U {?} 

对 于 A € V,: E[A][alli] =w, w E Vi 是 第 i 个 最 小 代价 前 级 (A 一 "wa =). 
否则 ，E[Ajlalli] = ? 

对 于 a E Vt:，E[aj[b]{i = ?如 果 a*b 或 1>0 E[a][a]fO] = 


注意 : 使 用 我 们 最 初 的 定义 ， 我 们 知道 E[AJ[al[0] 和 E[A]fal] 具 有 相同 的 值 。 
我 们 仍然 想 获得 有 最 便宜 的 可 能 插入 ， 但 它 现在 必须 服从 下 一 个 输入 符号 加 上 v 个 验证 符号 应 该 契 
可 分 析 的 这 一 条 件 。 设 X! … X 是 分 析 栈 最 上 面 的 i 个 符号 ，y 是 已 分 析 的 输入 符号 ，b: bs … 是 剩余 的 答 
入 符号 。 我 们 必须 设法 求解 下 面 的 公式 
Min Min {(C(S[Xi])}+ * CSX- CERI, Mii) | 
y SIX] …: SIX JEX] bi lbs bw ccc € L(G) 
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这 个 求 最 小 值 的 公式 看 起 来 很 怕人 ， 但 它 其 实 是 说 我 们 现在 必须 以 v 个 符号 的 验证 为 条 件 来 获取 最 小 
代价 的 插入 。 如 有 果 E[Xi[bJt0] 不 起 作用 ， 我 们 可 能 要 考 处 EIXJIb{1]、E[XItb1]{2】 … 。 
find validated insert() 求 解 此 最 小 值 。 它 发 现 最 便宜 的 插入 并 试图 验证 这 个 插入 。 如 果 验 证 失败 ， 
它 就 党 试 下 一 个 最 便宜 的 插入 ， 然 后 是 再 下 一 个 ， 等 等 ， 直 到 发 现 一 个 验证 正确 的 插入 或 者 直到 设 有 代 
价 有 限 的 插入 剩 下 为 止 。 

在 那个 求 最 小 值 的 公式 里 ， 插 入 操作 可 以 由 两 个 参数 来 描述 : i， 在 分 析 栈 中 使 用 函数 E 的 位 置 ; j， 
选择 第 j 次 最 便宜 值 的 索引 。 我 们 的 算法 知道 ) = 0 时 得 到 最 便宜 的 可 能 的 E 表 的 值 ， 因 此 它 最 初 考虑 每 个 
栈 位 置 时 使 用 = 0， 然 后 找到 大 体 上 最 便宜 的 插入 的 位 置 ( 称 它 为 i )。 这 个 处 理 过 程 和 我 们 先前 定义 的 
find insert() 所 做 的 完全 相同 。 如 果 验 证 失败 ， 我 们 寻找 下 一 个 最 便宜 的 插入 ， 记 住 不 要 再 试 我 们 先 
前 的 插入 。 这 是 通过 在 考虑 栈 位 置 时 使 用 j 值 1 来 完成 的 。 一 般 地 ， 我 们 使 用 按 栈 位 置 索 引 的 癌 量 
last_soln， 它 记录 了 上 次 求解 时 使 用 的 j 值 。 这 种 方法 确保 了 我 们 按照 代价 最 小 的 顺序 尝试 插入 操作 并 
且 决 不 会 重复 已 验证 失败 的 插入 。 

我 们 还 必须 为 E 表 寻找 一 种 有 效 的 表示 方式 。 很 显然 ， 我 们 不 可 能 预先 计算 E[B]J[b] 中 的 所 有 可 能 值 。 
为 使 简单 的 修复 更 快 一 些 ， 我 们 可 以 预先 计算 E[B][b][0] 的 利 。 如 果 考 虑 空间 因素 ， 这 些 值 也 只 能 在 需要 
的 时 候 才 被 计算 。 - 

在 例 程 find_validated insert() 里 ， 所 有 E 表 的 引用 有 相同 的 第 二 个 成 员 ， 即 参数 
validation prefix 的 首 符号 。 最 初 ， 我 们 仅 需 要 E[X][a][0]， 共 中 a = validation_prefix[0]))。 这 古 一 
个 由 非 终结 符 X 索 引 的 向 量 。 这 个 向 量 可 以 从 E[Bj[b][0] 中 抽取 出 来 (前 提 条 件 是 我 们 已 预先 计算 过 
EfB][b][0] ) 。 除 此 之 外 ， 还 可 以 从 S 表 的 值 和 文法 的 产生 式 来 计算 E[X][al[0] (参见 练习 7b)。 这 种 计算 
很 快 ， 只 需 片刻 时 间 。 如 果 有 必要 ， 我 们 可 以 逐步 计算 E[X][alf1]、E[X][aj[2]、 等 等 ， 直 到 发 现 验证 正 
确 的 插入 为 止 〈 参 见 练习 19 )。 

还 有 一 种 方法 可 以 计算 完整 的 E[X][a][i 向 量 。 随 着 插 人 代价 变 得 愈加 昂贵 ， 它 们 就 愈加 不 受 欢 迎 ， 
而 且 修 复 代 价 是 否 最 小 也 变 得 不 那么 重要 了 。 因 此 ， 我 们 可 以 考虑 例 程 compute _E() ， 它 能 产生 原始 E 
表 的 值 并 将 它们 存储 在 E_table 中 ， 后 面 跟着 以 代价 排序 的 单 符 号 前 绥 。 因 为 长 度 为 1 的 E 困 数值 是 按 需 
计算 的 ， 所 以 我 们 可 以 在 原始 的 E 表 中 将 它们 替换 为 ?。 而 长 度 为 1 的 条 目 相当 常见 〈 可 以 占 到 Pascal 文 
法 的 20% ) ， 所 以 这 是 一 个 了 不 起 的 节约 。 假 设 我 们 全 局 定义 了 : 


const terminal sorted terminals [NUMBER OF TERMINALS]; 


而 且 将 其 初始 化 为 按 插入 代价 排序 的 终结 符 的 集合 。 
我 们 现在 有 如 图 17-20 所 示 的 例 程 。 使 用 此 例 程 计算 E 值 ， 且 只 使 用 错误 符号 之 上 的 一 个 或 两 个 符号 
全 证， 试验 人 员 就 将 针对 Pascal 测 试 集 的 较 差 的 修复 减少 到 了 11% 以 下 。 有 趣 的 是 ， 验 证 的 窗口 从 一 个 
符号 增 大 到 两 个 符号 时 并 没有 带 来 多 大 的 区 别 ( 在 评估 为 较 差 的 修复 中 的 改变 低 于 1%)。 两 符号 的 验证 
有 时 确实 能 选择 更 好 的 修复 ， 但 却 容易 被 前 后 两 个 错误 相距 很 近 的 情况 所 抵消 。 在 这 些 情况 下 ， 较 大 的 
窗口 会 把 第 二 个 错误 曲解 为 一 个 指示 而 指出 正在 考虑 尝试 的 修复 是 不 合适 的 。 
terminal string compute E (symbol A, terminal a, int i) 
{ 
/* 
* Find E[A] [a] [i], restricting 


* values for i » 0 to one symbol. 


*/ 


/* Index of last valid prefix found */ 
int num found = -1; 





图 17-20 一 个 计算 E 表 值 的 算法 
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terminal string prefix = "?"; 


if (E table[A][a] != "?") { 
prefix = E table[A) [a]: 
num found = 0; 


} 


for (j = 0; j < NUMBER OF TERMINALS; j++) { 
if (i == num found) 
return prefix; 


if (11_validate(SET OF( A ), 
sorted terminals[j] @ a)) { 
/* 
* sorted terminals[j] is a legal prefix if 
* it and a can be parsed with A as stacktop. 
*/ 
prefix = sorted terminals[j]: 
num found**; 
} 


} 

/* All possibilities examined; */ 
/* could not find E[A] [a] [i] */ 
return "?"; 


图 17-20 (4%) 


总 之 ，FMQ 算 法 的 扩展 带 来 了 非常 显著 的 修复 质量 的 提升 。 当 然 也 少不了 一 些 “ 惩 罚 "。 因 为 所 采 


用 的 搜索 和 验证 不 像 表 查询 那样 简单 ， 所 以 错误 修复 相对 较 慢 。 然 而 ， 速 度 并 非 主要 因素 。 该 算法 的 一 


种 简单 实现 可 以 -一 个 修复 平均 低 于 一 秒 钟 。 而 更 仔细 的 实现 无 疑 还 会 提高 修复 率 ， 无 论 如 何 ， 它 都 足以 
胜任 交互 式 或 批 处 理 的 应 用 。 我 们 做 的 最 明显 的 改进 是 用 compute_E() 缓 存 状态 信息 以 便 E[Aj[al[i+1] 
的 调用 能 从 E[Ajfal 匡 停止 的 地 方 而 不 是 从 头 开始 计算 。 


17.2.7 利用 LLGen 进 行 错误 修复 


我 们 这 么 详细 地 讨论 FMQ 算 法 的 一 个 原因 是 我 们 的 LLGen 语 半分 析 器 的 生成 器 也 是 一 个 错误 修复 的 
生成 器 。 如 果 使 用 了 选项 errortables ， 就 会 生成 一 个 包含 插入 和 删除 代价 以 及 S 表 和 E 表 的 文件 。 根 
据 所 用 的 FMQ 的 版 本 不 同 ，E 表 是 可 选 的 。 

插入 和 删除 代价 被 作为 输入 提供 给 LLGen。 在 *+terminals 一 节 里 ， 每 个 记号 的 定义 行 可 以 包含 一 
个 整数 插入 代价 和 一 个 整数 删除 代价 ， 其 形式 为 : | 


token name | insertion cost. deletion cost 


图 17-21 给 出 了 语言 Micro 的 鹿 法 记号 的 定义 ， 其 中 带 有 插入 和 删除 代价 。 

如 果 没 有 提供 有 关 代 价 ， 则 假定 默认 代价 为 1。 这 意味 着 最 小 代价 修复 默认 为 最 短 长 度 修复 。 

修复 代价 的 选择 往往 因 人 而 异 ， 但 通常 也 不 是 那么 要 紧 。 回 想 一 下 ， 只 有 已 知 可 能 是 正确 的 (或 可 
能 被 验证 确认 的 ) 修复 才 会 被 算法 所 选择 。 修 复 代价 主要 是 用 于 在 那些 可 被 接受 的 候选 中 进行 挑选 。 通 
常 ， 我 们 可 以 更 新 代价 以 便 调 整 算法 来 强制 执行 一 个 特定 的 修复 。 根 据 以 往 的 经 验 ， 带 有 较 少 语义 内 容 
的 分 界 符 的 插入 或 删除 均 很 便宜 ; 关键 字 和 一 些 重 要 的 分 界 符 [ 像 (] 代 价 较 高 。 因 为 通常 在 一 个 输入 符号 
周围 构造 插入 要 比 删除 它 的 情况 好 一 些 ， 所 以 删除 代价 通常 要 比 插入 代价 高 一 些 。 有 时 一 个 符号 〈 例 如 
if) 可 以 出 现在 不 止 一 个 上 下 文 当中 (例如 ， 出 现在 Ada 语 言 中 作为 标题 和 闭合 符号 )。 如 果 存 在 着 重大 
差异 的 插入 代价 均 是 合适 的 ， 那 么 可 以 创建 一 些 截然 不 同 的 符号 用 于 代价 分 析 ， 并 且 单 个 终结 符 将 出 于 
分 析 和 修复 目的 而 被 保留 。 
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图 17-21 语言 Micro 中 词法 记号 的 播 信 和 删除 代价 
经 验 表 明 : 任何 合理 的 代价 集合 加 上 适度 的 验证 窗口 〈1 -~ S 个 符号 ) 一 般 可 以 产生 高 质量 的 修复 。 
17.2.8 LR 错误 恢复 


用 于 LR 分 析 器 的 错误 恢复 技术 通常 是 紧急 方式 技术 的 变形 。 这 些 技术 可 以 单独 使 用 ， 或 作为 那些 
雄心 勃勃 的 错误 修复 算法 失败 时 可 以 依靠 的 方法 。 

在 紧急 方式 恢复 的 最 简单 版 本 中 ， 我 们 首先 定义 安全 符号 (safe symbol) 集合 (如 ;、end、$ 等 )。 
在 发 现 语法 错误 时 ， 我 们 向 前 跳 过 若干 输入 符号 直到 首次 出 现 安全 符号 。 然 后 ， 我 们 从 分 析 栈 中 弹出 若 
和 干 条 目 直至 我 们 达到 可 以 读 入 安全 符号 的 状态 。 紧 接着 ， 我 们 将 重新 开始 语法 分 析 。 

预期 的 效果 是 要 跳出 有 错误 的 语言 结构 并 在 下 一 个 (可 能 正确 的 ) 语言 结构 开始 的 地 方 恢复 分 析 。 
这 种 处 理 在 像 FORTRAN 或 BASIC 那 样 的 未 结构 化 语言 中 工作 得 最 好 ， 因 为 在 那些 语言 中 ， 很 容易 找到 
下 一 条 语句 开始 的 地 方 。 

为 限制 在 搜索 安全 符号 时 被 跳 过 的 输入 符号 的 数量 ， 我 们 可 以 定义 能 够 标志 语句 或 语句 列表 开始 的 
首部 符号 集合 (也许 是 begin、then 和 else 等 )。 如 果 我 们 正在 向 前 跳 过 若干 输入 符号 而 寻找 安全 符号 
时 遇 到 一 个 首部 符号 ， 我 们 就 在 此 首部 符号 前 停 下 来 并 标记 它 。 分 析 即 将 被 重启 (以 处 理 那个 期 望 的 语 
句 )。 在 已 标记 的 首部 符号 被 分 析 器 还 原 后 ， 向 前 的 跳 越 将 重新 开始 。 

一 个 比较 好 的 紧急 方式 版 本 出 现在 文献 lames (1972) 中 。 这 种 方法 自动 地 搜索 要 跳 到 的 安全 符号 。 

在 发 现 错误 时 ， 此 算法 做 以 下 儿 步 工作 : 

(1) 弹出 零 个 或 多 个 状态 直到 遇见 能 读 入 至 少 一 个 非 终 结 符 的 状态 。 我 们 称 那个 状态 为 s。 

(2) 考虑 可 以 通过 读 入 各 种 非 终 结 符 而 得 到 的 s 可 能 的 后 继 状态 。 假 设 此 状态 集 为 {S1,S2, … So} 

(3) 向 前 跳 过 零 个 或 多 个 符号 到 达能 被 {s1,S2, … sn} 中 的 任 一 状态 读 入 的 符号 T。 然 后 压 入 任何 可 以 
读 入 T 的 状态 并 重新 开始 分 析 。 | 

(4) (SARE HEU TEST, WARS TAS. REPERI. 

此 算法 的 基本 思想 是 通过 压 人 某 些 非 终结 符 的 后 继 状 态 从 而 完成 它们 的 识别 。 随 后 用 跟 在 那些 非 终 
结 符 后 面 的 终结 符 来 重新 开始 分 析 。 实 际 上 ， 我 们 跳出 了 一 个 短语 并 随后 立即 重新 开始 分 析 。 这 种 方案 
明显 要 比 紧急 方式 更 通用 ( 且 可 以 自动 生成 )。 它 可 以 从 任何 语法 错误 中 恢复 过 来 (最 坏 情 况 下 ， 它 弹 
栈 到 开始 状态 ， 取 开始 符号 的 后 继 状 态 ， 向 前 一 直 读 到 输入 结束 处 的 $)。 此 算法 最 大 的 缺点 是 待 完成 的 
短语 的 选择 ( 即 ， 压 入 哪 一 个 后 继 状 态 ) 是 任意 的 。 不 恰当 的 选择 能 够 导致 级 联 错误 。 


17.2.9 Yacc 中 的 错误 恢复 


当 一 个 Yacc 生 成 的 分 析 器 ( 见 6.6.12 节 ) 发 现 语法 错误 时 ， 它 将 调用 子 程序 yyerror() 并 停止 分 析 。 
(yyerror() 负责 打印 语法 错误 信息 .) 
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ATH 


Yacc 还 另外 提供 了 用 户 可 控 的 错误 恢复 方法 。 当 我 们 把 LALR (1) 的 文法 规范 提交 给 Yacc 了 时 ， 可 以 在 
产生 式 的 右 部 放置 一 个 特殊 的 符号 error 。 此 符号 标记 《出 现 语 法 错误 后 ) 进行 错误 恢复 的 理想 地 点 。 
例如 ， 产 生 式 | 


statement : error ';' ; 


就 表示 在 出 现 语法 错误 后 ， 语 法 分 析 可 以 通过 分 号 的 匹配 而 得 到 恢复 ， 继 而 完成 语句 的 识别 。 当 前 (出 
错 的 ) 语句 的 剩余 部 分 将 被 跳 过 。 

当 发 生 语法 错误 时 ，Yacc 分 析 器 即 进入 出 错 处 理 阶段 。 它 从 分 析 栈 中 弹出 若干 内 容 直 到 发 现 可 以 移 
进 error 的 状态 。( 如 果 没 有 找到 这 样 的 状态 ,分 析 将 终止 。) 接着 error 被 移 进 ， 且 用 当前 (引起 语法 
错误 的 ) 记号 来 恢复 分 析 。 如 果 能 分 析 三 个 连续 记号 ， 分 析 器 就 离开 出 错 处 理 阶 段 并 恢复 正常 的 分 析 工 
作 。 否 则 ， 它 将 删除 记号 直到 它 能 分 析 三 个 连续 的 记号 为 止 。 

例如 ， 假 设 我 们 正在 分 析 A := B C; 而 且 在 记号 C 处 发 现 语法 错误 。 使 用 刚刚 给 出 的 错误 恢复 产生 
式 ， 我 们 将 把 分 析 栈 弹 回 到 最 初 看 见 A 时 的 那个 状态 。error 被 移入 栈 中 ,分析 栈 到 达 一 个 要 求 分 号 的 
状态 。C 随 后 会 被 删除 ， 这 就 使 得 它 后 面 的 分 号 能 被 移 人 栈 中 。 假 设 后 面 是 一 条 有 效 的 语句 ， 那 么 分 析 
将 被 正确 地 恢复 。 包 含 erzor 标 记 的 产生 式 也 可 以 包含 其 他 的 语义 例 程 以 允许 在 错误 恢复 后 的 用 户 干预 ， 
诸如 重新 设置 语义 处 理 或 发 出 特殊 的 出 错 信息 。 

error 标 记 使 用 户 可 以 控制 恢复 分 析 的 地 点 一 一 通常 ， 在 主要 的 语言 结构 (诸如 语句 、 表 达 式 或 声 
BH) 的 后 面 。 例 如 ， 给 定语 言 Micro 的 规范 ( 见 图 6-32)， 下面 两 个 产生 式 


statement : error ';' ; 
expression : error ; 


将 允许 在 语句 或 表达 式 上 下 文 的 结尾 处 进行 恢复 工作 。 | 
Yacc 的 恢复 方法 简单 易 用 且 可 被 自动 包含 在 所 有 Yacc 生 成 的 分 析 器 中 。 它 可 以 单独 使 用 或 作为 在 那 
些 更 精细 的 修复 或 恢复 技术 失败 时 可 以 依靠 的 方法 。 


17.2.10 ”自动 生成 的 LR 修复 技术 


基于 LR 方法 的 分 析 器 所 用 的 最 小 代价 修复 技术 是 由 Dion (1982) 开发 的 。 此 技术 和 用 于 LL(1) 分 析 
器 的 FMO 算 法 类 似 。 即 ， 用 来 恢复 分 析 的 最 小 代价 的 插入 和 删除 序列 是 确定 的 。 但 是 ，Dion 的 技术 要 比 
FMQ 方 法 复杂 得 多 。 问 题 在 于 ，LL(1) 分 析 栈 中 直接 编码 着 剩余 待 匹 配 的 信息 ， 而 从 LR 技术 中 获取 等 价 
的 信息 却 相 当 困 难 。 特 别 地 ，LR 分 析 状 态 中 的 那些 单独 的 项 目 必须 要 加 以 分 析 且 与 它们 在 其 他 各 种 状态 
中 的 前 驱 链接 在 一 起 。 最 终 的 结果 是 追踪 所 有 可 能 恢复 分 析 的 方法 以 便 从 中 选择 尽 可 能 最 便宜 的 修复 。 | 

实现 Dion 技 术 需 要 各 种 各 样 的 数据 表 ， 对 于 典型 的 程序 设计 语言 ， 这 些 数 据 表 通 常 都 需要 成 百 上 千 
个 字 节 。 由 Dion 技 术 所 产生 的 最 小 代价 修复 相当 令 人 满意 ， 尤其 是 在 执行 验证 的 时 候 。 然 而 ， 为 达到 实 
用 的 目的 ， 还 是 应 该 使 用 较 小 的 数据 表 。 因 此 ， 我 们 将 关注 那些 基于 代价 的 并 和 Dion 技 术 一 样 有 效 但 要 
求 空间 更 少 的 修复 技术 。 
基于 延 拓 的 LR 错误 修复 | 

我 们 现在 考虑 能 够 使 用 延 拓 来 确定 可 能 的 修复 动作 的 LR 错误 修复 算法 。 由 Roehrich (1980) 引入 的 
延 拓 (continuation) 是 指 在 发 生 语法 错误 时 被 插入 的 终结 符 串 ， 它 使 得 分 析 器 在 重新 启动 时 没有 更 多 的 
错误 。 在 最 坏 情 况 下 ， 可 用 延 拓 来 替换 剩余 的 输入 以 完成 修复 ， 更 多 的 时 候 ， 可 以 插入 某 个 前 组 以 使 剩 
余 输 入 的 某 个 后 绎 能 通过 分 析 。 作 为 示例 ， 我 们 考虑 文法 G2， 它 是 一 个 产生 简单 表达 式 的 文法 : 

S— E$ | | 

EST | ET 

T ID | (E) 





SER PAYED A 457 


在 分 析 ( ID + (ID ID) ) $ 的 时 候 ， 我 们 在 到 达 第 三 个 ID 时 发 现 语法 错误 。 任 何 可 以 在 我 们 已 接受 的 程序 
前 组 ( ID + ( ID 之 后 插入 以 构成 有 效 程 序 的 终结 符 串 都 是 延 拓 。LALR(1) 分 析 器 仅 接 受 有 效 的 程序 前 组 ， 
而 一 个 有 效 的 延 拓也 必定 总 是 存在 的 。 实 际 上 ， 对 于 给 定 的 程序 前 绥 ， 可 以 存在 无 穷 多 个 不 同 的 延 拓 。 
因此 ， 在 我 们 的 例子 中 ，) ) $ 是 一 个 有 效 的 延 拓 ， 而 ) ) + ID $ 和 ) ) + ID + ID SEAR Ibi SARAH 
也 均 为 有 效 的 延 拓 。 在 挑选 延 拓 时 ， 我 们 可 能 最 想 要 的 是 最 短 或 代价 最 小 的 延 拓 。 

仅 使 用 延 拓 的 错误 修复 方法 可 能 是 不 够 的 ， 因 为 在 发 生 语法 错误 时 ， 我 们 很 少 想 删除 所 有 的 剩余 输 
A. 尽管 如 此 ， 最 小 代价 延 拓 的 前 组 常常 可 以 用 作 修复 中 的 插入 。 在 进行 这 样 的 插入 以 后 ， 我 们 就 可 以 
刷 除 零 个 或 多 个 输入 符号 ,然后 再 试 着 重启 分 析 过 程 。 和 LL 中 错误 修复 情况 一 样 ， 我 们 采用 代价 尺度 作 
为 判断 的 标准 来 选择 插入 和 删除 的 最 佳 组 合 ， 且 在 接受 之 前 要 先行 验证 这 个 修复 。 设 以 下 函数 


boolean lr validate(stack of state parse stack, 
terminal string prefix); 


是 确定 prefix 能 否 在 由 parse_stack 所 表示 和 的 上 下 文中 进行 分 析 的 验证 例 程 。 

定义 在 图 17-22 中 的 例 程 choose validated insert() i A T FA 
get continuation(parse_stack) 来 获得 与 parse_stack 中 的 符号 相对 应 的 最 小 代价 延 拓 。 
choose validated insert() 检 查 延 拓 的 前 级 ， 试图 寻找 可 使 Validation prefix 被 接受 的 最 便宜 的 
插入 。 











terminal string 
choose validated insert(stack of state parse stack, 
terminal string validation prefix) 











( 
/* 
* Find a least-cost terminal or continuation prefix 
* for the validation prefix. Assume that globally 
* we have defined an array of terminals sorted by cost: 
x / | 
extern const terminal sorted terminals[NUMBER OF TERMINALS]; 


terminal string continuation 三 get continuation (parse stack); 
terminal string insert = "9". 


if (ir validate(parse stack, validation prefix)) 
return ""; /* Best insertion is no insertion */ 








for (j = 0; j< NUMBER OF TERMINALS; j++) 
if (ir validate(parse stack, 
sorted terminals[j] @ validation prefix)) { 
insert = sorted terminals[jl: 
break; 












) 


/* Check prefixes of length >=2 */ 
for (i = 2; i <= length (continuation); i++) ( 

if (C(continuation[1 .. i]) >= C(insert)) 
return insert; 










if (ir validate(parse stack, 
T continuation[1 .. i] @ validation prefix)) 
return continuation(1 .. i]; 







return insert; 


图 17-22 一 个 计算 已 验证 的 LALR 插 入 的 算法 


延 拓 通 常 是 代价 最 小 的 ， 这 意味 着 程序 中 的 一 些 可 选 的 结构 是 可 以 忽略 的 。 在 我 们 先前 的 例子 ( 1D 
+ (ID ID) ) $ 中 ， 与 ( 1D + (1D 相 对 应 的 最 小 代价 延 拓 是 )$。 一 个 很 明显 的 修复 是 在 第 二 个 ID 后 面 插入 
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IT 


+， 但 是 + 并 没有 出 现在 ))$ 里 。 

Roehrich 注 意 到 了 这 个 问题 并 建议 包含 能 在 出 错 符号 前 被 立即 插入 的 特殊 分 隔 符 (separator symbol ) 
表 。LeBlanc 和 Mongiovi (1983) 通过 考虑 把 所 有 在 语法 上 合法 的 终结 符 作为 插入 候选 而 改进 了 上 述 方 
法 。 因 此 ，choose validated insert() 首 先 检 查 在 无 需 插 入 的 情况 下 能 否 分 析 
validation prefix。 接 下 来 ， 它 党 试 单 符号 的 插 人 和 人， 从 最 便宜 的 到 最 贵 的 。 最 后 ， 它 尝试 延 拓 符号 
BA BRR 

定义 在 图 17-23 中 的 例 程 validated_1lr_repair() 将 考 虚 输 入 符号 删除 的 可 能 性 ， 它 使 用 
choose validated insert() 来 计算 相应 的 插入 直到 发 现 一 个 验证 正确 的 最 小 代价 修复 为 止 。 我 们 总 
可 以 找到 一 些 验 证 正确 的 修复 ， 即 使 在 最 坏 情 况 下 也 有 可 能 删除 所 有 的 剩余 输入 并 插入 延 拓 的 全 部 符号 。 


void validated lr repair(terminal string *ins, 
int *d, int v) 


( 
/* 
* Remaining input = bl - - * b, 
* Optimal repair is to delete d tokens, then insert 
* string ins. v is a validation count: we must 
* validate the repair on ba * ^ * baa. 
*/ 


terminal string val ins; 


*ins = "?"; 
*d = 0; 
for (i = 1; i <= length(b); i++) { 
if (D(b[1 .. i-1]) >= C(*ins) + D(b[1 .. *d])) 
break; 
/* No lower cost repair is possible */ 


len = min(it*v, length (b)); 
val ins = choose validated | insert (parse stack, 
b[i .. len)); 


if (C(val ins) * D(b[1 .. i-1]) 
< C(*ins) + D(bf1 .. *d))) ( 
/* Better repair found */ 
*ins = val ins; 
*d x i-1; 





图 17-23 一 个 计算 已 验证 的 LALR 修 复 的 算法 


作为 示例 ， 我 们 再 来 看 ( ID + (ID ID ) ) $ 的 修复 问题 。 为 简单 起 见 ， 假设 所 有 的 插入 和 删除 代价 均 为 
1 而 且 我 们 要 求 三 符号 的 验证 。 首 先 ，validateqd_1lr_repair() 考 虑 零 个 符号 的 删除 。 它 以 ( ID + ( ID 对 
应 的 分 析 栈 和 值 为 ID ) ) validation prefix 为 参数 调用 choose validated insert(). 如 前 所 述 ， 
发 现代 价 为 1 的 符号 + 的 插入 。 接 下 来 ，validated lr repair( ) 考虑 删除 第 三 个 ID。 由 于 此 代价 为 1， 
因此 不 能 带 来 更 便宜 的 修复 。 而 更 多 符号 的 删除 也 是 如 此 ， 押 以 ， validated lr _ repair() 选 择 插 人 + 
来 修复 此 错误 。 

在 实践 中 ，validated_1lr_repair() 执 行 得 相当 好 。 在 使 用 Ripley 和 Druseikis 测 试 集 时 ， 有 超过 
75% 的 修复 被 评估 为 优秀 。 经 过 仔细 地 调整 修复 代价 以 及 采用 可 适应 两 个 相连 错误 的 验证 机 制 ， 在 所 有 
修复 中 ， 可 评估 为 优秀 修复 的 比例 增加 到 81%， 而 评判 为 较 差 修复 的 比例 仅 占 4%。 

同样 重要 的 是 ， 这 种 修复 技术 并 不 昂贵 。 除了 分 析 表 以 外 ， 需 要 存储 的 只 有 用 于 计算 延 拓 的 延 
拓 动 作 表 和 代价 向 量 。 修 复 的 计算 速度 大 约 为 每 秒 钟 10 个 ， 而 这 种 速度 也 适合 于 交互 式 和 批 处 理 的 
应 用 。 
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在 本 节 里 ， 我 们 讨论 在 发 生 错 误 时 如 何 从 当时 的 分 析 栈 中 计算 延 拓 。Roehrich 的 原始 公式 没有 使 
用 人 代价。 因此， 我 们 使 用 由 LeBlanc 和 Mongiovi (1983) 提出 的 一 个 扩展 。 为 计算 延 拓 ， 我 们 检查 分 析 
栈 中 的 每 一 个 状态 以 确定 它 所 期 望 的 终结 符 。 这 表面 上 看 似 简 单 其实 却 暗含 陷阱 。 

考虑 有 以 下 基础 项 目的 分 析 状 态 : 

Aa. 

B2395.Yy 

2206.0 


这 些 基础 项 目 表明 产生 式 已 被 部 分 匹配 。 为 完成 分 析 ， 必 定 要 完成 它们 当中 的 某 一 个 。 一 个 明显 的 方法 
是 插入 与 B 或 Y，…， 或 匹配 的 (可 能 是 最 小 代价 的 ) 终结 符 串 。 

必须 要 仔细 选择 待 插 入 的 终结 符 串 。 假 设 我 们 有 基础 项 目 : 

A>E.end 

EE.-4ID 
其 中 ， 插 入 end 的 代价 比 插入 + ID 的 代价 要 高 一 些 。 于 是 ， 看 上 去 插入 + ID 会 比较 适合 ， 但 这 样 会 导致 
无 限 插入 循环 。 特 别 地 ， 如 果 插 入 的 是 + ID ， 在 我 们 归 约 E > E + ID 且 移 进 E 之 后 ， 我 们 将 返回 到 与 原 
来 相同 的 状态 ， 从 而 又 开始 强制 插入 + ID 。 正 确 的 延 拓 算法 必须 认识 到 end 的 插入 才 是 合适 的 ， 尽 管 它 
比 + ID 代价 高 一 些 。 

为 确定 延 拓 ， 我 们 检查 LR 分 析 状 态 。 我 们 特别 关注 状态 中 项 目的 顺序 ， 把 状态 看 成 一 个 项 目的 列表 
而 不 是 项 目的 集合 。 如 果 列 表 完 全 有 序 ， 那 么 在 列表 头 部 的 项 目 将 总 被 用 来 确定 延 拓 。 

假设 我 们 从 文法 G 开 始 。 和 17.2.4 节 中 的 情况 一 样 ， 设 C(a) 为 插入 终结 符 a 的 代价 ，Sfy] 表 示 可 从 Y 推 
导出 的 最 小 代价 的 终结 符 串 。 | 

文法 G 中 能 够 共享 公共 堪 部 的 产生 式 将 按照 它们 右 部 的 代价 重新 排序 。 即 ， 如 果 我 们 有 A 一 a 和 
A p, HC(Slol) < C(SIp])， 那 么 A 一 a 将 先 于 A 一 B。 这 样 做 的 目的 是 为 了 首先 考虑 最 便宜 的 产生 式 。 

LR 的 移 进 和 闭 包 算法 必须 要 进行 更 新 以 保留 项 目 间 的 正确 次 序 ， 如 图 17-24 所 示 。 


configuration list list closure(configuration list L) 
{ 


configuration list L'- L; 


do ( 
if (B >. Ap e L'for AeV,) t 

/* Predict productions with A 

as the left-hand side. */ 

Add, in order of definition, all 
configurations of the form A > .Yy 
immediately after B 一 0 Ap 

) 
if (Some configurations appear more than once) 
Remove all but its first (earliest) occurrence 


) while (more new configurations can be added); 


return L'; 


) 





图 17-24 使 用 列表 的 LR 分 析 状 态 闲 包 


作为 示例 ， 重 新 考虑 使 用 单位 插入 代价 来 排序 的 文法 G2: 


S— E$ 
EST | E+T 
T ID | (E) 
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list_closure([S 5 . E$])=[ S—.ES$, 
E 


和 通常 的 LR(0) 闭 包 算法 不 同 ，List_closure() 在 添加 新 项 目 时 执行 的 是 深度 优先 (depth-firstb 而 
不 是 广度 优先 (breadth-firsb) 搜 索 。 这 样 做 的 日 的 是 为 了 把 通过 预测 而 添加 的 项 目 按照 代价 排序 并 且 与 那 
个 首次 导致 引入 它们 的 项 目 放 在 一 组 中 。 
为 创建 初始 配置 列表 Le， 我 们 预 铀 拓 广 产生 式 并 求 其 闲 包 : Lo = list closure ([S 一 "a$])。 
给 定 配置 列表 L ， 我 们 使 用 图 17-25 中 的 函数 1ist_go_to() 计 算 它 在 符号 X 下 的 后 继 L 。 
list_go_to() 以 通常 的 方式 计算 后 继 项 目 并 在 列表 中 保持 各 项 目 之 间 的 正确 次 序 。 
configuration list list go to(configuration list 1, 


symbol x) 
1 


/* Compute a basis list, I,: */ 
configuration list Ij = L; 


for (I in I4) í 
/* Advance the . past the symbol X (if possible) */ 
if (I is of the form A fp . Xy) 
Replace I with A Dx . y 
else 
Remove I from L; 
) 


return list closure(I,): 
/* Add new predictions to L, via closure operation */ 





图 17-25 LR 分 析 表 的 9o_to 计 算 


按照 上 面 的 定义 ， 项 目 列表 与 用 于 分 析 目 的 的 项 目 集 等 价 。 其 顺序 序 是 强制 用 来 便于 提取 延 拓 ( 稍 后 
讨论 )。 如 Roehrich(1980) 中 所 详细 描述 的 那样 ， 当 项 目 列表 被 视 作 集合 时 ， 我 们 必须 偶尔 创建 两 个 或 更 
多 不 同 的 项 目 列表 。 这 将 稍微 增加 相应 的 CESM 的 大 小 ， 但 不 影 啊 分 析 。 在 随后 的 讨论 中 ， 我 们 将 特定 
文法 的 LR(0) 项 目 列 表 表 示 为 Le。 

我 们 定义 延 拓 值 的 集合 CV = PUViU{Acceptj。CV 中 的 产生 式 p 表 示 那 个 产生 式 将 被 归 约 ; 终结 符 
值 t 表 示 t 将 被 添加 为 延 拓 中 的 下 一 个 符号 。Accept 表 示 一 个 已 完成 的 延 拓 。 

我 们 使 用 函数 CA (continuation action， 延 拓 动 作 ) 将 配置 列表 映射 到 延 拓 动作 : 

CA: Lọ > CV 
CA 的 定义 如 下 。 设 L E Lo 为 配置 列表 。 设 | 为 L 中 的 第 一 个 形式 为 A 一 o-apsEA 一 Y" 的 项 目 一 一 即 ， 第 

一 个 预测 终结 符 或 完成 产生 式 分 析 (0329) 的 项 目 。 

if | = A>a.ap then CA(L) = a; 


elsif | = S— 5$. then CA(L) = Accept; 
elsif | = A y. then CA(L) = p, where production p is A>, end if; 


作为 示例 ， 我 们 在 图 17-26 中 给 出 了 G1 的 CFSM， 它 使 用 的 是 项 目 列表 而 非 项 目 集合 。 相 应 的 延 扼 
动作 表 在 图 17-27 中 给 出 。 

我 们 现在 可 以 在 图 17-28 中 定义 先前 被 choose_validateqd_insert() 使 用 的 例 程 
get continuation(). get continuation( ) 取 LR 分 析 栈 为 参数 并 使 用 延 拓 动 作 表 CRA 和 go_to 表 来 
计算 延 拓 。 它 的 操作 方式 是 追踪 CR 表 、 移 进 终结 符 和 归 约 产生 式 直至 最 终 到 达 一 个 接受 动作 。 

作为 示例 ， 假 设 我 们 正在 使 用 文法 Gs 来 分 析 (ID + (ID ID ))$。 当 发 现 语法 错误 时 ， 分 析 栈 中 的 状态 








为 067 3 67。 例 程 get_continuation( ) 执 行 图 17-29 中 的 步骤 来 计算 一 个 延 拓 。 


fs — 


SoeE$ 


















E—eT 
T + eid 1 
L2 (E) 
E |  — 
| statec6 0 





ak Jk 








To(9*E) 
E —eT 
T — eid 
Toe(E) 
E->-eE+T 






Smet 


S 5 Ee$ x» EG E+eT E 
E—-Ee+T T 2 eid 
Te(E) 
$ T 


sae2 |] sees | — [57 o 
ICE 
e+T 


) 
[Sues | 
To(E)e 


图 17-26 使 用 项 目 列表 的 文法 G1 的 CFSM 


sate Joj] 2 131415186 1718.18. 
[Continuation Action: | ID | $ | Accept | ID | p8 | p3 | ID | ) | P4 | P2 | 
图 17-27 文法 G1 的 延 拓 动作 表 


terminal string get continuation(stack of state parse stack) 
( 

terminal string continuation; 

production p; 


continuation = À; 
while (TRUE) ( 
if (CA[top(parse stack)] == ACCEPT) 
return continuation; 
else if (CA[top(parse stack)]eV.) 1 
/* Add to continuation */ 
continuation = continuation 8 CA[top(parse stack)]: 
push(parse stack, 
go to[top(parse stack)][CA[top(parse stack)]]); 
) else ( 
/* Reduce a production */ 
p = CA[top(parse stack)]; 
pop(parse stack, length(p.rhs)); 
push(parse stack, 
| go to[top (parse stack)]Ip. lhal); 





图 17-28 一 个 计算 延 拓 的 算法 
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Action Continuation 
Shift ) 

Reduce T — (E) 

Reduce E > E+T 

Shift ) 


Reduce T -> (E) 
Reduce E 一 于 
Shift $ 

Accept 





图 17-29 追踪 例 程 get _continuationt ) 


计算 出 的 值 DS 很 明显 是 一 个 有 效 的 延 拓 而 且 实际 上 也 是 代价 最 小 的 。 我 们 可 以 很 容易 地 证 明 例 程 
get_continuation() 总 是 产生 有 效 的 延 拓 。 在 正常 情况 下 ， 那 些 生 成 的 延 拓 也 是 代价 最 小 的 ， 尽 管 这 
一 点 不 能 总 是 得 到 保证 (参见 练习 13)。 

有 效 性 很 容易 证 明 ， 因 为 例 程 get_continuation( ) 只 是 简单 地 仿真 一 个 分 析 器 : 移入 延 拓 符 号 、 
执行 归 约 直到 到 达 接 受 动 作 。 惟 一 可 能 出 问题 的 是 例 程 get_continuation() 有 可 能 不 终止 。 揭 示 算 法 
终止 的 奥秘 在 于 分 析 列 表 中 项 目的 次 序 。 在 闭 包 计算 中 ， 一 个 被 预测 的 项 目 跟 在 首次 引入 它 的 那个 项 目 
的 后 面 被 添加 进来 。 这 就 意味 着 在 一 个 项 目 完成 分 析 、 归 约 并 移 人 它 的 左 部 ( 非 终结 符 ) 以 后 ， 它 最 初 
的 预测 者 将 位 于 分 析 列 表 的 表 头 并 将 在 下 一 次 完成 分 析 。 实 际 上 ， 我 们 可 以 逆向 工作 ， 首 先 完成 某 个 项 
自然 后 才 是 它 最 初 的 预测 者 。 这 种 处 理 避 免 了 循环 且 因 此 可 以 确保 计算 终止 。 


17.2.11 利用 LALRGen 进 行 错误 修复 


我 们 这 么 详细 地 讨论 LR 错误 修复 算法 的 一 个 原因 是 我 们 的 LALRGen 语 法 分 析 器 的 生成 器 也 是 一 个 
错误 修复 的 生成 副 。 各 果 使 用 了 选 现 errortables， 那么 就 会 生成 一 个 包含 插入 和 删除 代价 以 及 延 拓 动 


作 表 的 文件 。 


提交 给 LALRGen 的 插入 和 删除 代价 的 格式 与 在 LLGen 中 使 用 的 格式 相同 (参见 17.2.7 节 )。 在 
xterminals 一 节 里 ， 每 个 记号 定义 行 可 以 包含 一 个 整数 插入 代价 和 一 个 整数 删除 代价 ， 其 形式 为 : 


token. name | insertion cost. deletion cost 


如 果 没 有 提供 有 关 代 价 ， 则 假定 默认 代价 值 为 1。 


17.2.12 其 他 LR 错误 修复 技术 


研究 人 员 已 经 提出 许多 其 他 的 LR 错误 修复 技术 ， 其 中 包括 由 Druseikis 和 Ripley (1976). Mickunas 
和 Modry (1978)、Pennello 和 DeRemer (1978) 等 人 提出 的 技术 。 BUTE NE LS 
它们 被 证 实 是 有 效 且 效率 高 的 。 

由 Graham、Haley 和 Joy (1979) 提出 的 技术 可 以 用 在 Berkeley Pascal 系 统 中 。 它 利用 由 Yacc 产 生 的 
分 析 表 ， 并 在 其 中 添加 了 强 有 力 的 错误 修复 成 分 。 GHJ 技 术 首 先 尝试 包括 插入 、 删除 或 替换 单个 记号 等 
简单 的 错误 修复 。 它 所 考虑 的 每 一 种 修复 均 被 验证 ， 所 使 用 窗口 的 大 小 为 5 个 记号 。 验 证 将 包括 一 个 语 
义 成 分 ， 因 为 在 验证 过 程 中 仍然 可 以 进行 各 种 类 型 检查 。 任何 一 个 语法 或 语义 上 的 错误 都 会 使 修复 变 得 
不 合格 。 

每 种 修复 都 被 赋予 一 个 代价 值 ， 那 些 仅 能 通过 部 分 窗口 验证 的 修复 将 受到 惩罚 。 如 采 上 上 一 一 次 分 析 器 
的 动作 是 移 进 ， 那 么 被 移入 的 终结 符 可 以 被 移出 ， 并 且 包 含 单个 插入 、 删除 或 替换 的 修复 将 被 再 次 评估 。 

在 当前 记号 〈 也 可 能 包括 前 一 个 记号 ) 的 所 有 单 符号 修复 都 被 评估 之 后 ， 我 们 将 选择 其 代价 低 于 一 
个 阔 值 的 最 便宜 的 修复 。 如 果 没 有 这 样 的 修复 ， 我 们 要 做 特殊 的 检查 以 查看 是 否 能 将 单个 终结 符 移 人 到 
当前 状态 中 。 如 果 可 以 ， 那 么 即使 可 能 很 快 就 会 检测 到 另 一 个 错误 (或 验证 机 制 将 此 修复 评估 成 是 可 以 





接受 的 修复 ) ， 此 终结 符 也 将 被 插入 。 我 们 需要 谨慎 处 理 以 避免 插入 循环 ， 因 此 连续 的 单 移 人 的 插 和 人 将 
被 禁止 。 

如 果 单 移 和 人 的 插入 不 合适 ， 则 进行 二 级 错误 恢复 。 这 其 实 就 是 (使 用 错误 标记 的 ) 标准 的 Yacc 恢 复 

机 制 ， 并 附带 有 Wirth 的 首部 符号 〈 见 17.2.2 节 ) 以 防止 对 输入 符号 的 过 度 删除 。 特 别 的 考虑 将 用 于 区 别 
声明 部 分 和 语句 部 分 。 如 果 有 必要 ， 可 以 插入 begin 来 打开 语句 部 分 ， 或 者 弹出 若干 个 状态 以 重新 打开 
声明 部 分 。 

GHJ 技 术 也 利用 了 出 错 产 生 式 来 处 理 那些 超出 普通 错误 修复 范围 的 情况 。 例 如 ， 在 Pascal 语 言 里 ， 
声明 部 分 标号、 常量、 类 型 、 变 量 和 子 程序 ) 必须 有 正确 的 次 序 。 不 正确 的 出 现 顺 序 是 一 种 较 常 见 的 
错误 ; 出 错 产生 式 将 接受 那些 出 现在 错误 位 置 上 的 声明 。 

在 实践 中 ， 我 们 发 现 GHJ 技 术 是 快速 、 紧 次 和 有 效 的 。 为 了 包含 错误 标记 条 目 ， 分 析 表 仅 增 大 约 
10%。 修 复 速 度 为 每 个 修复 若干 分 之 一 秒 ， 且 修复 质量 非常 好 ， 针 对 Pascal 测 试 集 的 修复 中 ， 有 超过 
80% 的 修复 被 评估 为 良好 或 优秀 。 

这 种 方法 的 主要 缺点 在 于 ， 它 包含 了 许多 针对 特定 语言 的 组 合 使 用 的 试探 方法 。 修 复 程 序 是 手工 编 
写 而 不 是 自动 生成 的 ， 这 样 就 不 容易 将 它 移植 到 新 的 语言 中 。 尽 管 如 此 ，GHJ 方 法 表明 : 在 产品 级 的 编 
译 器 中 ， 我 们 可 以 获得 那些 有 效 且 高 效 的 错误 修复 。 它 为 更 自动 的 技术 制定 了 参照 或 赶 超 的 标准 。 

另 一 个 值得 关注 的 错误 修复 技术 是 Burke 和 Fisher (1982) 提出 的 为 Ada 语 言 设 计 的 错误 修复 技术 。 

和 GHj 技 术 的 情况 一 样 ， 这 种 技术 也 使 用 了 两 级 修复 ， 通 过 验证 去 除 掉 一 些 可 能 的 修复 。 大 多 数 完 整 
Ada 语 言 的 编译 器 都 不 是 一 遍 的 ; 相反 ， 它 们 首先 创建 并 分 析 称 为 Diana 树 的 中 间 表 示 ， 稍 后 才 生 成 代码 
(参见 第 14 章 )。 因 此 ，BF 技 术 不 限于 保存 一 个 已 经 被 接受 的 输入 前 级， 而 且 它 还 包括 在 已 经 分 析 的 输 
入 上 的 回溯 移动 (backward move). 

在 主要 的 修复 阶段 ， 将 尝试 在 当前 (非法 ) 记号 处 进行 简单 修复 (simple repair)。 简 单 修 复 包括 记 
号 合并 (token merge)、 单 个 记号 插入 、 记 号 替换 、 范 围 恢复 (scope recovery) 或 单个 记号 删除 等 。 记 
号 合并 是 将 前 一 个 记号 和 当前 记号 ,或 将 当前 记号 和 下 一 个 记号 拼接 为 一 个 记号 (例如 ，: 和 = 拼接 
为 :=)。 记 号 替换 仅 限于 可 能 的 拼写 错误 (例如 ，begim 赫 换 为 begin)。 范 围 恢复 是 插入 一 个 范围 闭合 
符号 ， 如 ) end if。 可 以 通过 检查 验证 能 进行 多 远 (最 多 到 25 个 记号 ) 来 评估 每 一 种 可 能 的 修复 。 验 
证 最 远 的 修复 ， 只 要 它 能 到 达 最 小 距离 (通常 是 3 个 记号 ) 就 会 被 选中 。 

如 果 没 有 找到 满意 的 修复 ， 这 个 算法 就 从 分 析 栈 中 删除 一 个 状态 并 把 此 状态 的 条 目 符号 拼接 到 输入 
串 上 。 实 际 上 ， 此 算法 通过 删除 一 个 状态 对 应 的 已 接受 的 符号 而 向 左 移动 了 一 个 符号 (终结 符 或 非 终结 
符 )。 在 此 之 后 ， 将 再 次 尝试 并 评估 简单 修复 (不 包括 记号 合并 )。 此 过 程 将 一 直 重 复 直 至 找到 一 个 可 接 
受 的 修复 或 直到 算法 试图 回溯 越过 范围 的 开始 符号 (例如 ，begin 或 package) 为 止 。 此 时 ， 进 入 次 要 
修复 阶段 。 

为 开始 次 要 修复 阶段 ， 分 析 栈 被 重 置 为 在 首次 发 现 错误 时 就 已 存在 的 那个 配置 。 我 们 从 栈 中 弹出 老 
干 条 目 以 寻找 可 以 移入 当前 输入 记号 的 状态 (当前 记号 可 能 用 必要 的 范围 闭合 符号 作为 前 级 )。 如 果 验 
证 接受 了 至 少 5 个 记号 ， 分 析 即 可 恢复 。 否 则 ， 我 们 将 删除 当前 输入 记号 并 再 次 弹出 状态 直到 输入 前 组 
可 被 满意 地 验证 为 止 。 删 除 将 持续 到 发 现 已 验证 的 恢复 或 到 达 文件 末尾 为 止 。 对 于 后 者 ,恢复 将 作为 特 
殊 情 况 而 被 强制 执行 

研究 人 员 BRA. BF 技术 可 带 来 优秀 的 性 能 ， 忆 在 Pascal 测 试 集中 90% 以 上 的 修复 被 评价 为 良好 或 
优秀 。 它 的 速度 还 可 以 接受 ， 约 为 每 秒 钟 一 个 修复 。 


练习 
1， 考 虚 以 下 的 稀 琶 数组 : 
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说 明 如 何 使 用 压缩 行 技术 和 双重 仿 移 技术 来 表示 这 个 数组 。 


， 附 录 F 中 讨论 的 数组 压缩 工具 使 用 了 最 优 递 碱 的 方法 来 构造 双重 偏 移 数 组 表示 。 即 ， 数 组 行将 按照 它 


们 密度 递减 的 顺序 而 被 融和 在 一 起 。 此 外 ， 当 某 一 行 被 融入 到 V 表 中 时 ， 该 行 的 放置 将 使 V 表 被 尽 可 
能 少 地 扩展 。 

请 建议 另 一 种 与 最 优 递 减法 不 同 的 方法 ， 使 得 数组 行 可 以 被 融和 以 形成 双重 偏 移 数组 表示 。 在 
什么 情况 下 ， 你 的 方法 优 于 最 优 递减 法 ? 


在 某 些 情 况 下 ， 数 组 包含 了 两 行 或 更 多 行 相同 的 行 。 解 释 如 何 扩展 17.1 节 中 的 表 压 缩 技术 以 利用 稀 


疏 数 组 中 的 相同 行 。 


通常 ，Pascal 语 言 中 的 ithen 和 if-then-else 语 句 可 由 以 下 形式 的 产生 式 生成 : 


<stmt list» — <stmt> 

«stmt list» — «stmt list» ; «stmt» 

«stmt» — if «expr» then «stmt» 

«stmt» — if «expr» then «stmt» else «stmt» 


Pascal 中 一 个 常见 语法 错误 是 ,“; else” 问 题 一 一 “;” 后 面 直接 跟着 else。 令 人 惊讶 的 是 ， 这 个 错 
误 难 以 修复 。 明 显 的 解决 方案 是 如 果 “;” 后 面 直接 跟着 else ， 就 忽略 掉 这 个 “;”。 然 而 ， 在 一 退 
Pascal 编 译 器 中 ， 分 析 在 then 分 支 后 的 一 个 “;” 将 导致 和 -then 语 句 的 识别 ， 而 else 则 看 似 新 语句 
的 开头 。 

在 这 个 文法 中 添加 出 错 产生 式 ， 以 便 ; else 序 列 被 处 理 为 和 else 等 价 。 要 保证 更 新 过 的 文法 仍 
是 LALR(1) 的 。 


. 给 2.4 节 里 的 语言 Micro 的 语法 分 析 过 程 添加 check_input( ) 调用 。 说 明 如 何 处 理 以 下 语法 错误 : 


(a) begin ID := 1 end $ 
(b) begin ID := end $ 
(c) begin end $ 

(d) $ 


假设 我 们 正 使 用 图 5-5 中 的 LL(1) 分 析 表 来 分 析 语 言 Micro 的 程序 ， 而 且 使 用 17.2.3 节 中 的 


11 recovery( ) 例 程 来 处 理 语法 错误 。 请 说 明 下 面 的 语法 错误 是 如 何 处 理 的 : 
(a) begin ID :2 1; ; end $ | 

(b) begin ID := 1 end $ 

(c) begin ID := end $ 

(d) begin end $ 

(e) $ 


. (2) 给 出 使 用 CFG 和 插入 代价 向 量 来 计算 17.2.4 节 中 S 表 的 算法 。( 提 示 : (ERE STU MS ER EAA 


部 的 进 代 算法 。) 
(b) 推广 你 在 (a) 中 定义 的 算法 来 计算 E 表 的 值 。 


. 考虑 下 面 的 文法 : 


<program> 一 «statement list» 

«statement list» —. «statement» «statement tail» 
«statement tail» -> «statement list» 

«statement tail» — À 
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«statement» — ID := «expression» ; 
«statement» — if «expression» then «statement list» fi ; 
«statement» — null ; | 


«expression» — ID «expression tail» 
«expression tail» ”一 + ID «expression tail» 
«expression tail» . — A 


给 这 个 文法 中 的 每 一 个 终结 符 提供 插入 和 删除 代价 。 使 用 这 些 代 价 和 你 在 练习 7 中 定义 的 算法 来 计 
算 这 个 文法 的 S 表 和 E 表 。 
使 用 练习 8 中 的 文法 和 错误 修复 表 ， 给 出 针对 以 下 每 个 输入 在 采用 图 17-11 中 的 例 程 find_insert() 
时 所 计算 的 修复 : 
(a) ID := ID ID := ID ; 
(b) ID := ID. ID + ID ; 
(c) ID := fi; 
(d) ID then null; fi 
(e) if ; 
(f) then ; 
(g) fi; 
在 使 用 图 17-15 中 的 例 程 11_repair( ) 时 ， 如 果 允 许 删 除 ， 那 么 你 将 得 到 什么 样 的 修复 ? 
在 使 用 11 repair() 计 算得 到 的 修复 中 ， 如 果 要 求 五 符号 的 验证 ， 那 么 将 有 哪个 修复 被 拒绝 ? 


， 把 下 面 的 文法 改写 成 Yacc 所 要 求 的 格式 ， 且 添加 error 记 号 以 指定 错误 恢复 : 


<program> — «statement list> 
«statement list» — — «statement list» «statement» 
«Statement list» — — «statement» 


«statement» — ID := «expression- ; 

«statement- — if «expression» then «statement list» fi ; 
«statement» > null; 

«expression» — «expression» + ID 

«expression» — ID 


练习 9 中 的 错误 程序 将 得 到 怎样 的 处 理 ? 


， 使 用 17.2.10 节 中 的 技术 ， 为 练习 10 中 的 文法 创建 CESM 和 延 拓 动作 表 。 例 程 get_continuation( ) 


将 为 练习 9 中 的 每 个 错误 程序 计算 什么 样 的 延 拓 ? 


， 为 练习 10 中 文法 的 每 个 终结 符 建 议 相 应 的 插入 和 删除 代价 。 使 用 在 练习 11 中 计算 出 的 CFSM 和 延 拓 


动作 表 ， 并 假设 采用 三 符号 的 验证 ， 那 么 图 17-23 中 的 例 程 validated_lr_repair( ) 将 为 练习 9 中 
的 每 个 错误 程序 计算 什么 样 的 修复 ? 


， 证 明 由 图 17-28 中 的 例 程 get_continuation() 计 算 的 延 拓 并 不 总 是 最 小 代价 的 。 
， 如 果 我 们 同时 检查 语义 和 语法 的 有 效 性 ， 就 可 以 改进 错误 修复 的 验证 。 大 致 描述 我 们 应 当 如 何 设计 


语义 例 程 ， 以 便 它们 既 可 以 筛选 错误 修复 ， 又 可 以 做 完整 的 语义 处 理 。 728 


， 设 计 17.2.1 节 中 的 LL() 缓 冲 技术 是 用 来 处 理 任意 LL(D 文 法 的 。LL(I) 文 法 常常 具有 这 样 的 特征 : 可 


推出 X 的 非 终结 符 都 可 以 直接 那么 做 。 即 ， 如 果 A 一 " 入 ， 则 可 以 有 A 一 入。 如果 所 有 和 的 推导 都 是 直 
接 ， 则 简要 描述 一 种 撤销 为 非法 超前 搜索 符号 而 进行 的 分 析 器 动作 的 较 简 单方 法 。 


， 假 设 我 们 正在 分 析 输 入 x。 设 计 find_insert() 的 一 个 版 本 〈 见 图 17-11)， 使 得 即使 分 析 栈 的 深度 


达到 O( Ixl ) 时 ， 该 版 本 的 find_insert() 的 O( Ix! ) 次 调用 也 仅 需 要 O( Ix! ) 的 时 间 。 


， 证 明 : 图 17-15 中 的 11_repair() 算 法 可 以 计算 局 部 最 优 的 错误 修复 一 一 即 ， 它 所 计算 的 插入 串 y 和 
删除 计数 i 满足 : 
Min Min(D(b bc) yb: e L(G)} 


ye Vi 
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其 中 ， 输 入 为 xb1 … Dmo 


当 发 现 语法 错误 时 ， 我 们 通常 不 撤销 分 析 动 作 ， 因 为 语义 动作 是 很 难 或 不 可 能 撤销 的 。 由 于 语义 动 
作 是 由 动作 符号 初始 化 的 ， 因 此 将 分 析 动 作 撤销 至 上 一 次 处 理 的 动作 符号 应 该 是 可 能 的 。 这 将 使 修 


复 动作 的 范围 更 广 旦 无 需 撤销 语义 动作 。 简 要 描述 应 如 何 修 正 图 5-11 中 标准 的 LL(1) 驱 动 程序 ， 以 
便 在 发 现 语法 错误 时 将 分 析 撤 销 至 上 一 次 处 理 的 动作 符号 。 
设 a 为 某 个 特别 的 错误 符号 。 假 设 我 们 希望 使 用 图 17-19 中 的 例 程 Etind_validated insert( ) 而 且 
我 们 已 经 计算 了 向 量 E[X][al[0]、E[X][al[1]、…、E[Xj[ajlij。 解 释 如 何 使 用 这 些 向 量 、S 表 以 及 正 
在 分 析 的 文法 来 计算 E[X][aj[i+1]。 
衡量 错误 修复 算法 的 有 效 性 的 一 种 方法 是 ， 取 一 个 正确 的 程序 并 有 组 织 地 将 它 转变 为 一 系列 在 语法 
上 非法 的 程序 。 例 如 ， 如 果 程 序 包 含 n 个 记号 ， 那 么 通过 删除 一 个 记号 即 可 获得 n 个 “变异 ”程序 。 
类 似 地 ， 通 过 在 每 个 记号 的 最 近 左 邻 处 插入 一 个 随机 记号 即 可 得 到 另外 n 个 “变异 ”程序 。 只 有 少 
量 的 “变异 ”程序 在 语法 上 是 合法 的 且 可 以 被 忽略 。 所 有 其 他 的 “变异 ”程序 虽然 在 语法 上 是 非法 
的 但 可 以 通过 插入 或 删除 单个 记号 而 被 修复 。 

我 们 可 以 通过 有 多 少 “变异 ”程序 被 修复 为 原始 程序 来 评估 一 个 错误 修复 算法 。 使 用 这 种 
“变异 ”分 析 方法 来 自动 评估 你 喜欢 的 错误 修复 算法 。 





附录 A Ada/CS 语 BEEN 


A. 简介 


Ada/CS 是 计算 机 科学 中 的 Ada 子 集 (a Computer Science subset of Ada), ， 用 来 说 明 程序 设计 语言 
其 编译 器 设计 和 实现 中 的 概念 。 本 附录 有 两 个 目的 。 一 是 提供 语言 定义 ， 用 于 使 用 本 书 授课 的 课程 中 的 
编译 器 实现 设计 。 二 是 作为 本 书 第 10 ~ 13 章 所 讨论 的 语言 特性 的 和 手册， 以 及 作为 本 书 程序 设计 示例 中 所 
使 用 的 伪 代 码 的 基础 。 | 


A.2 词法 因素 


标准 字符 集 是 依赖 于 实现 的 ,但 它 必 须 包含 表示 Ada/CS 词 法 记号 所 需 的 特殊 符号 。 注 释 由 “-- 
( 双 减 号 ) 和 行 结束 符 界定 。 在 能 出 现行 结束 符 的 任何 地 方 都 可 以 有 注释 ， 它 们 被 词法 分 析 器 忽略 。 在 
除 字 符 串 外 的 任何 词法 记号 中 ， 大 小 写字 母 等 价 。 空 特 符 《空格 、 制 表 符 和 行 结束 符 ) 要 么 作为 单独 的 
词法 记号 ， 要 么 被 忽略 。 空 白 符 不 能 出 现在 除 字符 串 常量 (F) 之 外 的 任何 词法 记号 中 。 行 结束 符 不 
能 在 任何 词法 记号 中 出 现 。 行 的 最 大 允许 长 度 是 由 实现 定义 的 。 


A.3 词法 记号 
令 letter = 'A'.. 'Z', ʻa’ .. 'z'; digit = 0 .. ‘9’; | 
(1) 下 列 为 关键 字 。 它 们 均 被 保留 。 : 730 
abs access all and array begin 
body case constant declare else elsif 
end exception exit tor function if 
in is loop mod not null 
of or | others out package pragma 
private procedure raise range record return 
reverse subtype then type use when 
while 


(2) 文字 常量 是 整数 、 浮 点 数 或 字符 串 。 

整数 文字 常量 仅 包含 数字 和 下 划 线 ， 且 由 数字 开头 。 下 划 线 可 以 出 现在 任意 两 个 数字 之 间 ; 它 用 来 
将 数字 分 组 以 增加 可 读 性 。 它 不 影响 所 表示 的 实际 值 。 例 如 ，100 万 可 以 写成 1_000._000 或 1000000， 

学 点 数 文字 常量 中 在 小 数 点 前 面 和 后 面 都 必须 至 少 有 一 个 数字 下 划 线 允许 出 现在 浮 点 数 文字 常量 
中 。 浮 点 数 也 可 以 使 用 带 字母 E 或 e 的 科学 计数 表示 法 。 下 列 都 是 有 效 的 浮 点 数 文字 常量 : 

1.0 1.0E-5 1_000_000e4 


字符 串 文 字 常 量 以 双 引 号 (") 开头 和 结尾 ， 并 包含 可 打印 字符 (printable character) 的 任意 序列 。 
不 可 打印 字符 必须 通过 Char 属 性 (WF) 创建 。 如 果 一 个 双 引 号 出 现在 字符 串 常量 中 ， 它 必须 被 重复 
(例如 ，"""Help!"" he cried"). 

整数 值 的 允许 范围 和 Float 值 的 范围 及 精度 是 由 实现 定义 的 。 
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(3) 利用 正则 表达 式 词 法 记号 ， 其 中 : “表示 并 集 ，… 表 示 集 合 的 积 GER), w 表示 Kleene 闭 包 ， 
入 表示 空 字符 串 ，Not 表 示 补 集 ，- 表 示 差 集 ， 文 字 常 量 由 引号 CC) 界定 ， 而 括号 用 于 分 组 ， 则 以 上 定 
义 可 以 更 为 精确 : 


Literal = IntLiteral , FloatLiteral , StrLiteral 


intLiteral = digit . (digit, ' ")* 


FloatLiteral = = 

IntLiteral . '.' . IntLiteral , 

IntLiteral . (E. 'e) . (和 + 一) IntLiteral , 

IntLiteral . '.' . IntLiteral . ('E', e). (X'«, C. IntLiteral 


StrLiteral = ‘” . (Not(^) , 1. T). 
(4) 标识 符 是 以 一 个 字母 开头 的 字母 、 数 字 和 下 划 线 的 字符 串 。 
Identifier = (letter . (letter , digit," )*«) - Reserved 
对 于 标识 符 的 长 度 没 有 限制 (除了 它 必 须 被 放 在 同一 行 中 以 外 )。 
(5) 提供 下 列 各 类 运算 符 : 
MultOps +, /, mod 
UnaryOps abs, not 
PiusOps +,- 
RelOps =, /=, <, <=, >, >= 
LogicalOps and, or, and then, or else 
(6) FROGUARISIGSER RO RES (SETKA 吉 束 符 ): 
Delim 2", 7, 7, V > => S 
ATE RDDEMUHODIHAOBZUAR EEL OER) AR. EMER TIC HOS 
式 的 二 义 性 ( 即 ，begina 是 一 个 标识 符 ， 而 不 是 begin 后 面 跟着 a)。 


A.4 Pragma 


形 如 pragma ID; 的 pragma 可 以 出 现在 包 之 间 ， 以 及 声明 或 语句 可 以 出 现 的 任何 地 方 。pragma 是 
一 个 编译 器 指示 。 pragma 的 效果 以 及 合法 命令 1D 的 集合 是 依赖 于 实现 的 。 典型 的 pragma 命 令 包括 : 
ListOn、Optimize、Pack 和 Inline。 


A.5 类 型 


Ada/CS 包 念 四 种 在 Standard 包 中 预定 义 的 类 型 《Standard 包 中 含有 创 建 标准 环境 所 需 的 所 有 声明 )。 
Boolean: ”与 Pascal 和 Ada 中 的 一 样 


Float: 像 Pascal 中 的 Real 
Integer: 与 Pascal 和 Ada 中 的 一 样 
String: 一 个 变 长 字符 串 〈 与 Snobol IY 中 的 一 样 )。 最 天 可 能 的 字符 串 长 度 通 党 由 实现 因素 决 


定 〈 但 原则 上 是 无 限 的 )。 应 当 避 免 较 小 的 串 长 限制 (如 256 或 1024 )。 这 个 字符 串 的 
定义 比 大 多 数 Ada 实 现 中 的 定义 更 通用 。 | 

这 些 类 型 名 不 是 保留 字 ， 因 而 可 以 在 局 部 名 字 作用 域 中 被 重新 定义 。 

Ada/CS 包 念 四 种 创建 新 类 型 的 类 型 生成 器 (type generator): 
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(1) 枚 举 (与 Pascal 中 的 一 样 ) 形 如 
type ID is (ID, ID, . . .); 


该 生成 器 创建 一 个 新 的 枚 举 类 型 ， 括 号 中 的 那些 ID 作为 该 类 型 的 常量 。 在 类 型 定义 列表 中 ID 的 顺序 
确定 了 值 的 全 序 关 系 ， 列 表 中 第 一 个 ID 的 值 最 小 ， 最 后 一 个 ID 的 值 最 大 。 类 型 Integer 和 Boolean 都 被 认 
为 是 枚 举 类 型 (type Boolean is (False, True);)。Float 不 是 枚 举 类 型 。Float 和 枚 举 类 型 被 称 为 标量 
(scalar) 类 型 。Integer 和 Float ， 但 不 包括 枚 举 类 型 ， 被 称 为 算术 (arithmetic) 类 型 ， 在 算术 类 型 上 可 
以 应 用 预定 义 的 算术 运算 符 (如 “+” 和 “*”)。 

(2) 数组 定义 为 

type ID is array( «bounds list» ) of «component type name»; 


在 <bounds list> 中 ，( 由 多 个 “,” 分 隔 的 ) 单独 的 界限 形式 为 <expr> .. <expr> 或 <type name>. 
区 间 表 达 式 可 以 包含 变量 。<type name> 必 须 是 一 个 〈 可 能 受 限 的 ) 枚 举 类 型 的 名 字 。 如 果 任 意 数组 边 
界 包 含 变 量 ， 则 数组 是 动态 的 (dynamic )。 在 进入 包含 适当 数组 、 枚 举 和 子 类 型 定义 的 作用 域 时 对 边界 
进行 求 值 (并 固定 )。 数 组 的 成 员 类 型 可 以 是 包括 array 在 内 的 任意 类 型 。 

«bounds list> 的 元 素 也 可 以 拥有 <type name» range <> 这 样 的 形式 ， 它 定义 一 个 非 约 束 数组 类 至 
(unconstrained array type) ， 其 中 下 标 边界 是 未 指定 的 。 这 种 类 型 对 于 指定 作为 参数 传递 给 子 程序 的 数组 
类 型 尤其 有 用 。( 见 子 程序 一 节 对 非 约束 数组 类 型 的 进一步 讨论 。) 

例如 : | 

type Arr! is array (1..9) of Integer; 


type Arr2 is array (Boolean) of Arr1; 
type Matrix is array (Integer range <>， integer range «») of Float; 


(3) 记录 的 形式 为 


type ID is 
record 
<component list> 
end record: 


带 有 变 体 的 记录 形式 为 


type ID is 
record 
<component list> 
<variant part> 
end record; 


例如 


type R1 is 
record 
|, J : Float; 
C : Integer; 
end record; 


K : Integer; 

case T : Integer is 
when 1 => À : integer; 
when 2 => B : Float; 
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when 3 => C : Integer: 
D : Float; 
end case; 
end record; 


记录 中 的 一 个 成 员 声 明 在 语法 上 与 变量 声明 相同 〈 见 下 )。 记 录 中 的 所 有 数组 都 必须 有 和 常量 边界 。 
记录 中 的 域名 局 部 于 当前 记录 并 且 在 当前 记录 中 必须 是 惟一 的 。 

变 体 记 录 人 允许 在 一 个 记录 类 型 中 指定 那些 可 选择 的 成 员 。 每 个 变 体 描述 与 《Ada 中 ) 判别 式 或 
(Pascal 和 Ada/CS 中 ) 标签 域 的 一 个 (或 多 个 ) 特定 值 相对 应 的 记录 成 员 。 为 简化 关于 编译 变 体 记录 技 
术 的 介绍 ，Ada/CS 的 变 体 记录 特性 比 Ada 的 变 体 记录 特性 要 简单 一 些 。 正 如 我 们 所 注意 到 的 ， 它 是 基于 
标签 域 的 使 用 ， 这 一 点 就 像 在 Pascal 中 一 样 。 此 外 ， 每 个 变 体 可 以 仅 有 一 个 单独 的 标签 《而 不 是 一 系列 
标签 ) 。 

没有 域 的 记录 ( 仅 作 为 占 位 符 ) 的 声明 如 下 : 

type R3 is 


(4) 访问 类 型 的 形式 为 
type ID is access <object type name> ; 


在 Ada/CS 中 动态 分 配 的 对 象 由 访问 类 型 引用 ， 这 些 访问 类 型 等 价 于 其 他 语言 中 的 指针 或 引用 类 型 。 
在 Ada/CS 中 ， 对 整个 动态 对 象 的 引用 由 访问 对 象 名 后 面 的 一 个 .all 后 缀 表示 (例如 A.all)。 然 而 ， 对 被 
引用 对 象 的 成 员 的 引用 不 需要 特殊 的 语法 表示 。 因 此 ，A.D 可 以 表示 对 记录 A 的 域 D 的 引用 ， 也 可 以 是 对 
访问 对 象 A 所 指向 的 记录 的 域 D 的 引用 。 
在 Ada/CS 中 ( 像 在 Ada 中 一 样 ) 包含 不 完整 的 类 型 声明 ， 用 于 处 理 访 问 类 型 声明 中 的 前 向 引用， 比 
如 在 定义 递归 类 型 时 就 是 这 样 。 例 如 
Cell; 一 一 不 完整 的 类 型 声明 
type Link is access Cell; 一 必须 已 经 声明 Cell 
type Cell is 
record 
Value : Integer; 
Succ : Link; 


Pred : Link; 
end record; 


A.6 子 类 型 
子 界 类 型 定义 为 


subtype ID is «type name> <constraint> 

<constraint> 的 一 种 形式 为 range Lower .. Upper， 称 为 区 间 约 束 。 不 像 Pascal 中 那样 ，Lower 和 
Upper 可 以 是 (产生 相同 枚 举 类 型 的 ) 表达 式 。 这 些 表达 式 中 可 以 含有 变量 ， 因 此 可 能 无 法 在 编译 时 求 
值 。<constraint> 是 可 选 的 ;如 果 它 被 省 略 ， 则 子 类 型 就 是 原 类 型 的 一 个 简单 的 重 命名 。<type name» . 
也 是 可 选 的 ;如果 它 被 省 略 ， 则 它 是 Lower 到 Upper 区 间 界 限 的 类 型 。 

子 类 型 是 限制 在 区 间 约 束 所 规定 的 约束 内 的 原 类 型 (或 基 类 型 )。 因 此 ， 仅 有 在 Lower 和 Upper 界 限 
约束 之 间 的 值 可 以 被 献 予 这 种 子 类 型 的 对 象 。 可 以 声明 子 类 型 的 子 类 型 ， 只 要 约束 区 间 是 迄 当 的 《例如 ， 
子 类 型 不 能 包含 其 父 类 型 所 不 允许 的 任何 值 ).。 | 

约束 的 第 二 种 形式 是 下 标 约束 : («range list>)。 下 标 约束 只 能 应 用 于 非 约束 数组 类 型 。 像 数组 类 型 
定义 中 的 界限 一 样 ， 区 间 约 束 中 的 区 间 表 达 式 也 可 以 包含 变量 。 变 量 不 能 声明 为 非 约束 数组 类 型 。 它 必 
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须 使 用 约束 类 型 或 数组 子 类 型 ， 以 便 变量 的 大 小 可 由 适当 的 声明 定义 。 
理解 子 类 型 并 不 创建 新 类 型 这 一 点 很 重要 。 子 类 型 名 代表 着 约束 和 类 型 的 组 合 ， 其 中 的 约束 规定 了 
类 型 中 的 哪些 值 可 以 被 赋 给 声明 为 该 子 类 型 的 变量 的 进一步 的 限制 ，。 


A.7 变量 声明 


变量 由 以 下 形式 的 声明 引入 : 

ID, ID, ..., ID : «type» := <expr>; 

其 中 := <expr> 是 可 选 的 初始 化 部 分 。 
例如 : 


subtype Week is Integer range 1 .. 7; 
A, B : Week := 1; 


A.8 变量 表示 


记录 的 域 通 过 在 记录 标识 符 后 添加 限定 来 表示 。 例如， 如 果 使 用 前 面 的 记录 R2 的 定义 得 到 

A,B : array(1 .. 10) of R2, 

则 下 列 所 有 名 字 都 是 合法 的 

A(1).C, A(1).F.C, B(I).F 

但 下 列 这 些 名 字 是 非法 的 

B(1).1, A.E, A.E(1), F.J.C 736 

多 维 数组 不 能 是 部 分 索引 的 。 例 如 ， 给 定 

type AR is array(Boolean,1..10) of Fioat; C : AR; 
C(True, 3) 是 合法 的 ,但 C(True)(3) 和 C(False) 是 非法 的 。 

与 Pascal 不 同 ， 多 维 数组 不 是 数组 的 数组 (但 数组 的 数组 也 是 允许 的 )。 函 数 可 以 返回 数组 和 记录 ， 
而 且 它 们 可 以 被 限定 。 因 此 ， 如 果 F 和 G 是 函数 ， 则 F(1).A 和 G(2)(1,2) 都 是 合法 的 。 


A.9 有 名 常量 
标识 符 可 以 被 给 定 初 值 并 被 声明 为 常量 。 其 语法 非常 接近 用 于 变量 声明 的 语法 : 


ID, ID, . . ., ID : constant «type» := «expr»; 

如 果 <expr> 仅 包含 文字 常量 、 显 式 常 量 和 预定 义 的 运算 符 和 函数 ， 则 该 常量 是 显 式 的 《manifest) 
并 且 可 以 在 编译 时 求 值 。 否 则 ， 该 常量 《实际 上 ) 是 一 个 只 读 对 象 ， 其 值 在 运行 时 确定 但 不 能 在 初始 化 
之 后 被 改变 。 在 定义 之 后 ， 显 式 常量 可 以 用 于 《相同 类 型 的 ) 文字 常量 能 出 现 的 任何 地 方 。 


A.10 运算 符 和 表达 式 


送 算 符 (以 优先 级 的 降序 排列 ) 有 : 
(1) SPR EF C.) 和 下 标 COR!) 
(2) 指数 和 一 元 运算 符 : **, abs, not 
(3) 乘法 运算 符 : * /, mod 

(4) 一 元 加 和 一 元 减 : +, - 

(5) 加 运算 符 : +,-, & 
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(6) 关系 运算 符 : =, /=, <, <=, >, >= 
(7) 逻辑 运算 符 : and, or, and then, or else 
相同 优先 级 的 运算 符 从 左 到 右 求 值 。 除 ** 和 关系 运算 符 (它们 根本 不 可 结合 ) 之 外 ， 所 有 运算 符 


都 是 左 结合 的 。 因 此 ，X ** Y ** 2 是 非法 的 〈 尽 管 (X ** Y) ** 2 和 X ** (Y ** 2) 都 是 合法 的 )。 
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Ad! 运算 符 描 述 


(1) PRET (W) 9. 

(2) 指数 和 一 元 运算 符 。 

如 果 A 是 整数 或 实数 ， 且 B 是 非 负 整数 ， 则 A ** B 有 定义 。 特 别 地 ，A ** 0 等 于 1 或 1.0 (依赖 于 A 是 
整数 还 是 实数 )。 对 于 B > 0，A ** BXCFA*A*...*A (BTA). 

abs 是 绝对 值 运算 符 ; note i KE. 

(3) 乘法 运算 符 。 

运算 符 * 是 乘 ， 运 算 符 /是 除 。 两 个 操作 数 必须 是 浮 点 数 或 整数 ;结果 类 型 与 操作 数 类 型 相同 。( 回 
想 一 下 ， 整 型 的 约束 子 类 型 也 是 整 型 。) 

mod 运 算 符 仅 应 用 于 整数 。 等 式 

A = (A/B)*B + (A mod B) 


总 是 成 立 。(A mod B) 和 B 有 相同 的 符号 ， 并 且 其 绝对 值 小 于 B 的 绝对 值 。 

(4) 一 元 加 和 一 元 减 。 

这 些 运 算 符 定义 于 所 有 算术 类 型 之 上 ， 而 且 总 是 返回 操作 数 的 类 型 。+ 是 恒 等 运算 符 ; -是 求 补 运 
算 符 。 

(5) 加 运算 符 。 

运算 符 + 是 加 ;， 运算 符 -是 减 。 两 个 操作 数 必 须 是 浮 点 数 或 整数 ; 结果 类 型 与 操作 数 类 型 相同 。 廊 运 
AETHER. | 

(6) 关系 运算 符 。 | 

对 于 运算 符 <、<=、>、>=、=、/=， 两 个 操作 数 的 类 型 必须 相同 ; 结果 是 布尔 型 。 相 等 和 不 相等 
(= 和 /=) 对 于 所 有 类 型 均 有 定义 。 其 余 运算 符 针对 标量 类 型 和 字符 串 有 定义 。 对 于 字符 串 ， 比 较 按 照 字 
典 序 进 行 。 


(7) 逻辑 运算 符 。 | 
and 是 布尔 与 ，or 是 布尔 或 。 操 作 数 必须 是 布尔 型 。 两 个 操作 数 总 是 被 求 值 ， 因 而 and 和 or 符合 交 
换 律 。 


运算 符 and then 是 布尔 条 件 与 ; 运算 符 or else 是 布尔 条 件 或 。 操 作 数 必须 是 布尔 型 。 对 于 这 两 个 
运算 符 ， 左 边 的 操作 数 先 求 值 。 右 边 的 操作 数 仅 在 必要 时 才 求 值 。 这 两 个 运算 符 都 不 符合 交换 律 。 


A.12 赋值 相 容 性 


值 只 能 被 赋 给 与 之 具有 相同 基 类 型 的 对 象 。 如 果 目 标 类 型 是 约束 子 类 型 ， 则 对 给 它 的 任何 值 都 必须 
HERIR. TM, 子 类 型 将 与 其 基 类 型 以 及 相同 基 类 型 的 其 他 子 类 型 赋值 相 容 。 两 种 不 同 的 类 型 定义 ， 
即使 结构 上 相同 ， 也 被 认为 是 不 同 的 。 该 规则 被 称 为 类 型 的 名 字 等 价 。 

例如 


日 ” 原 书 这 里 缺少 第 一 点 。 一 一 详 者 注 
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type T1 is array(1..10) of Float; 
type T2 is array(1..10) of Float; 
A, B: T1; C, D: T2; 


A:=B 和 C:=D 是 合法 的 ， 但 A:=C 不 合法 。 
A.13” 空 语句 

空 语句 表示 为 null, 
A.14 赋值 语句 


赋值 与 在 Algol 60 或 Pascal 中 类 似 ， 假 定 赋 值 的 左边 和 右边 相 容 (如 上 面 所 定义 )。 任 意 类 型 的 相 容 
对 象 都 可 以 被 赋值 。 求 值 顺序 由 实现 定义 。 


A.15 id 


块 结构 ，( 变量、 有 名 常量 、 类 型 和 子 程序 等 ) 名 字 的 作用 域 和 动态 分 配 与 Algol 60 中 相同 。 块 结 
构 的 形式 为 


declare 
Type, variable, constant and subprogram declarations 
in 
Statement list 
exception 
Exception handler declarations 
end; 


如 果 没 有 声明 ， 则 关键 字 declare 可 以 被 省 略 。 如 果 没 有 异常 处 理 程序 ， 关 键 字 exception 可 以 锌 省 


略 。 块 可 以 出 现在 语句 能 出 现 的 任何 地 方 ( 像 Algol 60 中 一 样 )。 块 必须 以 形 如 “iD:” 的 块 标识 符 作为 前 
级 ; 同样 的 标识 符 必 须 跟 在 结尾 的 end 之 后 。 
例如 : 
B1: begin 
end B1; 


A.16 if 语句 


if 语 句 的 形式 为 

if boolean expression then 
sequence of statements 

elsif boolean expression then 
sequence of statements 


elsif boolean expression then 
sequence of statements 


Ise 
sequence of statements 
end if | 


else 子 句 和 elsif 子 句 可 以 被 省 略 。 条 件 按 顺 序 进行 求 值 ， 直 到 其 中 一 个 为 真 (将 else 看 成 elsif 
True then)。 随 后 执行 相应 的 语句 序列 。 如 果 没 有 任何 条 件 为 True， 则 不 执行 其 中 任何 一 个 语句 序列 。 


A.17 loop 语 名 
loop 语 句 有 三 种 形式 。 第 一 种 形式 为 
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loop 
sequence of statements 
end loop; 


x dÉ—^M “ERER”, exit H-F£tibxkfe (WL). 
第 二 种 循环 形式 是 传统 的 while loop: 


while <boolean expr> loop 
sequence of statements 
end loop: 


第 三 种 形式 基本 上 是 一 个 像 Pascal 一 样 的 for loop: 


for ID in <range> loop 
sequence of statements 
end loop; 


for ID in reverse «range» loop 
sequence of statements 
end loop; 


<range> 是 显 式 区 间 对 (BHüLower .. Upper) 或 者 是 一 个 枚 举 类 型 或 子 类 型 的 名 字 。 在 后 一 种 情况 
下 ，Lower 和 Upper 从 类 型 或 子 类 型 的 限制 或 约束 中 提取 。1D 在 循环 体 中 隐 式 声明 ， 因 此 它 在 循环 体外 
不 可 用 。ID 的 类 型 由 <range> 表 达 式 决定 。 | 

在 第 一 种 形式 中 ， 迭 代 自 ID 被 置 为 Lower 时 开始 〈 如 果 发 生 迭 代 的 话 )， 并 在 ID = Upper 之 后 终止 。 
<range> 表 达 式 仅 在 进入 循环 时 被 计算 一 次 。 零 次 迁 代 也 是 有 可 能 的 (如 果 初 始 时 ID > Upper). E% 
次 迭代 的 末尾 ，ID 接 受 <range> 序 列 中 的 下 一 个 值 。 

在 第 二 种 形式 中 ， 迹 代 自 ID 被 置 为 Upper 时 开始 (如 果 发 生 迭 代 的 话 )， 并 在 ID = Lower 之 后 终止 。 
<range> 表 达 式 仅 在 进入 循环 时 被 计算 一 次 。 零 次 过 代 也 是 有 可 能 的 (如果 初始 时 ID < Lower )。 在 每 
次 碗 代 的 末尾 ，ID 接 受 <range> 序 列 中 以 弟 序 遍历 的 下 一 个 值 。 

需要 将 for ID (MERTE) 视 为 只 读 的 。 它 不 能 被 赋值 ， 不 能 用 作 out 参 数 ， 等 等 。 像 块 一 样 ， 
(任意 形式 的 ) 循环 可 以 加 标号 ， 并 在 循环 结尾 处 加 上 相同 的 标号 。 


A.18 exit 语句 


Ada/CS 没 有 goto 语 句 。 但 它 有 形式 为 

exit; 

或 者 

exit ID; 
的 exit 语 句 ， 作 为 goto 语 名 的 受 限 形式 。 不 带 标号 的 exit 离 开 包含 该 exit 语 名 的 最 内 层 循 环 结构 。 带 标 
号 的 exit 语 句 离开 标记 有 相应 标识 符 的 循环 。 在 这 两 种 情况 下 ， 所 退出 的 循环 都 必须 在 包含 exit 语 句 的 
同一 子 程序 或 包 内 。exit 不 意味 着 从 子 程序 中 返回 。 

一 个 含 条 件 的 exit 可 以 由 when 子 句 表示 ， 其 形式 为 

exit ID when «bool expr>; 


exit 仅 在 布尔 表达 式 为 True 时 执行 。( 也 可 以 使 用 语句， 但 我 们 认为 exit-when 语 法 的 可 读 性 更 好 。) 


A.19 case 语 何 


case 语 名 的 形式 为 
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case <expr> is 
when «choice» |... | «choice» => sequence of statements; 
when «choice» |... | «choice» => sequence of statements; 


end case; 

它 计算 表达 式 的 值 ， 并 执行 与 表达 式 的 值 相 匹配 的 选项 所 对 应 的 语句 序列 ， 每 个 选项 要 么 是 常量 表 
达 式 ， 要 么 是 一 个 像 为 for 循 环 所 定义 的 <range> 指 示 符 ， 但 case 语 句 中 所 使 用 的 所 有 区 间 的 边界 必须 
在 编译 时 确定 。 最 后 一 条 When 可 以 使 用 关键 字 others 作 为 其 特有 的 选项 。 这 表示 所 有 未 被 其 他 选项 子 
句 泣 盖 的 值 。<expr> 所 有 可 能 的 值 都 必须 仅 被 一 个 选项 涵盖 。 任 意 枚 举 类 型 或 子 类 型 都 可 以 用 于 case 
语 名 中， 当然， 表达 式 的 类 型 和 When 选项 的 类 型 必须 匹配 。 


A.20 Read 


在 程序 设计 语言 的 设计 中 ， 一 个 反复 出 现 的 问题 是 ， 是 将 Read 和 Write 作为 语句 类 型 还 是 作为 预定 
义 的 过 程 。 两 种 方式 都 有 一 些 问题 。 考 虑 〈 像 Ada 那 样 ) 将 Read 和 Write 作为 预定 义 的 过 程 并 不 真正 令 
人 满意 ， 因 为 不 像 普 通 的 过 程 ， 我 们 想 让 它们 取 不 定数 目的 参数 ， 而 且 可 能 允许 非 标准 的 参数 语法 〈 例 
如 Pascal 的 宽度 规范 )。 另 一 方面 ,保留 Read 和 Write 看 起 来 会 阻止 用 户 去 扩展 这 些 语句 来 处 理 新 的 数据 
类 型 。 

在 Ada/CS 中 ， 我 们 将 基本 上 把 Read 和 Write 看 作 重 载 的 预定 义 过 程 。 为 允许 输入 或 输出 项 的 列表 
(Ada 并 不 真正 支持 )， 我 们 将 引入 对 过 程 调用 语法 的 一 个 记号 上 的 扩展 。 如 果 愿 意 ， 你 可 以 想像 一 个 将 我 
们 的 扩展 翻译 为 标准 语法 的 预 处 理 器 。(C 语 言 用 这 种 方式 处 理 #include、#daefine 等 .) Ada 中 的 参数 
由 逗号 分 隔 。 我 们 将 允许 由 分 号 分 隔 的 参数 组 (parameter group )。 每 个 参数 组 由 预 处 理 器 提取 并 插入 一 - 
个 单独 的 过 程 调 用 。 因 此 Write("Date ="; month; day; year); 会 被 展开 成 

Write("Date ="); Write(month); Write(day); Write(year); 


该 扩展 可 由 所 有 过 程 使 用 ， 而 不 仅 限于 Read 和 Write。 

在 Ada/CS 中 ， 只 能 读 标量 和 字符 串 。 即 ， 标准 的 包 中 含有 接受 Integer、Float、Boolean 和 String 
值 的 Read 定 义 。 当 定义 枚 举 类 型 时 ，Read 被 自动 重 载 以 处 理 该 新 类 型 。Read 没 有 被 预定 义 用 来 处 理 
数组 或 记录 ， 尽 管 我 们 可 以 为 这 些 类 型 编写 用 户 定义 的 例 程 。 

Read 能 够 处 理 结构 类 型 成 员 ， 只 要 该 成 员 是 字符 串 或 标量 。 输 入 是 以 自由 格式 读 和 人 ， 而 字符 串 值 
需 放 在 引号 中 。 我 们 的 预 处 理 器 强制 Read 一 项 一 项 地 处 理 ， 因 此 ， 举 例 来 说 ，Read(l; Al) EAER. 

标识 符 Next (预定 义 枚 举 类 型 的 一 部 分 ) 可 以 出 现在 读 列表 中 。 这 将 导致 立即 跳 到 下 一 个 输入 行 的 
开始 。 


A.21 Write 


所 有 标量 值 (和 表达 式 ) 以 及 字符 串 都 由 预定 义 的 Write 过 程 处 理 。 每 个 标量 类 型 都 有 足够 打印 该 
类 型 任意 值 而 不 需 截断 的 默认 输出 宽度 (由 实现 决定 )。 字 符 申 的 默认 输出 宽度 是 其 长 讼 。 

在 写 列表 中 的 任何 变量 或 表达 式 后 面 可 以 跟随 表示 显 式 输出 宽度 的 第 二 个 整数 参数 。 

。 对 于 标量 ， 如 果 宽 度 值 足够 打印 输出 值 而 不 需 截断 ， 则 该 值 使 用 列 打印 ，( 如 果 必 要 的 话 ) 空格 

被 填充 在 左边 。 如 果 宽 度 不 足以 打印 标量 值 而 不 需 截断 ， 则 该 宽度 参数 将 被 重 载 为 允许 打印 该 值 

的 最 小 宽度 值 。 l | 

。 对 于 字符 串 ， 如 果 宽 度 值 j > 字符 串 长 度 ， 则 字符 串 使 用 列 打 印 ， 左 边 填充 空格 。 如 果 i < 字符 串 

长 度 ， 则 打印 最 左边 的 i 个 字符 。 如 果 i < 0， 则 不 打印 任何 符号 。 

,对 于 浮 点 数 ， 使 用 的 格式 (指数 形式 ， 定 点 十 进 制 等 ) 是 与 实现 相关 的 ， 何 时 打印 宽度 会 导致 截 
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断 的 定义 也 与 实现 相关 。 
预定 义 的 标识 符 Next 可 以 出 现在 输出 列表 中 ，Next 将 导致 立即 跳 到 下 一 个 输出 行 。 如 果 输 出 行 过 


长 而 不 能 打印 在 一 个 物理 行 中 ， 它 可 以 在 没有 显 式 Next 出 现 的 情况 下 被 截断 。 
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宽度 表达 式 可 以 被 (可 选 地 ) 包含 在 参数 组 中 : 
Write("Date = "; month,2; day,3; year,5); 

它 被 展开 成 

Write("Date ="); Write(month,2); Write(day,3); Write(year,5); 


A.22 子 程 序 


就 像 在 Pascal 中 一 样 ， 子 程序 可 以 作为 过 程 或 函数 使 用 。 过 程 调 用 的 形式 为 P(Arg，Arg2,. . .); 而 无 
参 过 程 调用 的 形式 为 P;( 空 参数 表 是 不 需要 的 )。 

函数 调用 出 现在 表达 式 中 ; 例如 A + F(3,A)。 无 参 函 数 以 F 表 示 (看 起 来 很 像 变 量 )。 两 种 形式 的 子 
程序 都 可 以 递归 。 函 数 可 以 返回 任意 类 型 (包括 记录 和 数组 一 一 其 至 动态 数组 )。 

每 个 子 程序 的 开始 是 其 形 参 列表 。 对 每 个 参数 ， 都 指定 其 位 置 、 名 字 、 类 型 和 模式 (in, out 或 in 
out， 默 认 是 in )。 如 果子 程序 是 一 个 函数 ， 则 函数 头 以 return «type name> 结 束 ; 它 定义 了 由 该 函数 
所 计算 的 值 的 类 型 。 

例如 ， 考 虑 

procedure P(X : Float; Y,Z : in out Integer); 


过 程 P 中 声明 了 三 个 形 参 (X, Y, Z)。 所 有 形 参 都 被 认为 是 局 部 于 子 程序 体 的 。 所 有 形 参 的 类 型 以 及 
返回 值 类 型 (如果 是 函数 的 话 ) 必须 以 类 型 名 指定 。 不 可 以 使 用 显 式 的 类 型 生成 器 或 区 间 规 范 。 

Ada/CS 子 程序 遵循 与 Pascal 相 同 的 作用 域 规则 : 每 个 变量 在 定义 该 变量 的 块 中 的 任意 函数 、 过 程 或 
块 中 自动 可 见 ， 除 非 某 个 内 部 作用 域 包含 相同 变量 的 另 一 个 声明 。Ada/CS 不 允许 前 向 引用 ， 因 此 声明 的 
作用 域 实际 上 从 其 定义 点 延伸 到 其 包含 作用 域 的 结尾 。 

过 程 像 块 一 样 ， 也 可 以 声明 局 部 常量 、 变 量 、 类 型 和 子 程序 。 子 程序 体 定义 的 一 般 结构 与 块 相似 : 


procedure ID ( <formals list>) is 
Type, variable, constant and subprogram declarations 


in 
Statement list 
exception 
Exception handler declarations 
end; 
(«formals list>) 和 exception 部 分 都 是 可 选 的 。 
子 程序 可 以 接受 一 个 单独 的 数组 类 型 (其 界限 是 固定 的 ) 作为 参数 ， 而 若 能 接受 整个 一 类 数组 类 型 
(其 不 同 仅 在 于 所 分 配 的 数组 分 量 数 目 不 同 ) 则 通常 会 更 有 用 。 在 Ada/CS 中 ， 允 许 定义 未 指定 下 标 界限 
的 非 约 束 数 组 。 非 约束 数组 的 一 个 例子 古 


type Matrix is array(Integer range <>, Integer range <>) of Float: 
非 约 束 数组 可 以 用 于 子 程序 中 来 表示 一 类 合法 的 实 参 ， 所 有 实 参 都 拥有 相同 的 下 标 和 分 量 类 型 ， 但 其 实 
际 边 界 不 同 。 因 此 
procedure Invert (M In: in Matrix; M Out: out Matrix); 


可 以 接受 任意 大 小 相 容 的 二 维和 矩阵 。 
如 果 一 个 代表 普通 数组 而 不 是 非 约束 数组 的 类 型 名 被 用 于 参数 定义 ， 则 仅 有 正确 类 型 的 数组 会 被 传 
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递 。 因 此 ， 参 数 可 以 被 限制 为 特定 数组 类 型 ， 或 者 允许 整个 一 类 拥有 共同 结构 的 数组 
PR BA aE XL T: 
function «name» ( «formals list») return «type name> is 
Type, variable, constant and subprogram declarations 
f tement list 


exception 
Exception handler declarations 


国 数 能 返回 任意 类 型 。 仅 有 in 参数 是 允许 的 ， 这 反映 函数 不 应 该 有 副作用 的 观点 (尽管 它们 可 以 改变 非 
局 部 变量 )。 函 数 必 须 通 过 执行 


return <expr>; 


来 返回 。 其 中 <expr> 是 可 赋值 给 函数 的 类 型 ; 该 表达 式 的 值 作为 函数 调用 的 值 被 返回 。 过 程 通过 执行 
“return;” 而 返回 。 在 每 个 子 程序 的 结尾 处 都 有 一 个 隐 式 的 return。 

函数 名 (当然) 可 以 是 一 个 标识 符 。 它 也 可 以 是 ( 像 字符 串 文字 常量 一 样 ) 以 引号 引用 的 下 列 运算 
ey. **. *. /, mod. +, -. abs, not, & =. <, <=, >, >=, and. or. WaR ARA 
数 必 须 取 一 个 或 两 个 参数 ， 具 体 视 运算 符 是 一 元 还 是 二 元 (或 者 既是 一 元 又 是 二 元 ) ME. 运算 符 必 
须 返 回 一 个 boolean 值 。 无 论 何 时 定义 '='"，'/=' 都 自动 被 定义 为 其 非 运 算 。 


A.23 参数 模式 


当 调 用 一 个 过 程 时 ， 实 参与 相应 的 形 参 相 匹配 。 

- in 模式 的 参数 是 在 调用 时 被 初始 化 为 相应 实 参 的 局 部 常量 。 实 参 类 型 必须 可 赋值 给 形 参 类 型 ， 且 形 

参 在 任意 区 间 上 的 限定 (如 果 必 要 ) 在 调用 点 被 检查 。 如 果 形 参 是 非 约束 数组 ， 则 实 参 必须 是 该 形 

参 类 型 的 约束 子 类 型 。 作 为 In 参 数 传递 的 实 参 可 以 是 适当 类 型 的 任意 表达 式 。in 参 数 是 最 安全 的 类 

型 ， 因 为 它们 不 能 被 改变 。 这 也 是 它们 是 默认 类 型 的 原因 。 

。out 模 式 的 参数 是 可 被 赋值 但 不 能 读 的 未 初始 化 局 部 变量 ， 在 返回 时 ， 它 们 的 值 被 赋 给 相应 实 参 。 

形 参 类 型 必须 可 赋值 给 实 参 类 型 ， 而 形 参 在 任意 区 间 上 的 限定 (如 果 必 要 ) 在 返回 点 被 检查 。 如 采 

形 参 是 非 约束 数组 ， 则 实 参 必 须 是 该 形 参 类 型 的 约束 子 类 型 。 作 为 out 参 数 传递 的 实 参 必 须 是 一 个 

(可 能 带 有 限定 的 ) 变量 名 ， 因 为 它 将 成 为 赋值 的 目标 。 

«in _ out 模式 的 参数 是 在 调用 点 初始 化 为 实 参 值 的 局 部 变量 。 在 返回 点 ,该 局 部 变量 的 值 被 赋 给 相 

应 的 实 参 。 形 参 的 类 型 和 实 参 的 类 型 必须 是 互相 可 赋值 的 。 此 外 ， 对 形 参 和 实 参 的 区 间 限 定 《 如 

果 必 要 ) 在 调用 点 和 返回 点 被 检查 。 如 果 形 参 是 非 约 束 数组 ， 则 实 参 必 须 是 该 形 参 类 型 的 约束 子 

类 型 。 作 为 in out 参 数 传递 的 实 参 必须 是 一 个 (可 能 带 有 限定 的 ) 变量 名 ， 因 为 它 将 成 为 赋值 的 

目标 。 | 

in. 、out 和 in _ out 参数 显 然 可 以 通过 执行 复制 操作 来 实现 。 事 实 上 ， 这 对 标量 来 说 是 必需 的 。 对 于 
记录 、 数 组 和 字符 串 ， 复 制 操作 可 能 是 昂贵 的 。 因 此 ，Ada/CS 允 许 这 样 的 参数 通过 传递 地 址 而 不 是 执行 
实际 的 复制 来 实现 。 依 赖 于 非 标量 参数 如 何 实现 (复制 还 是 地 址 ) 的 程序 是 非法 的 。 


A.24 前 器 引用 


在 Ada/CS 中 不 允许 前 向 引用 。 如 果 一 个 常量 、 变 量 、 类 型 或 子 程序 要 被 使 用 ， 则 它 必 须 是 已 经 锌 
定义 的 。 可 能 发 生子 程序 必须 在 其 被 定义 前 被 调用 的 情况 (例如 ， 如 果 A 调 用 B 且 B 调 用 A)。 由 于 这 个 原 
因 ， 子 程序 的 声明 可 以 与 其 实际 定义 分 离 。 为 声明 一 个 子 程序 ， 只 要 提供 指定 其 名 字 、 参 数 和 返回 值 类 
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型 《如 采 有 返回 值 的 话 ) 的 子 程序 头 即 可 。 在 同一 名 字 作 用 域 的 后 面 ， 必 须 提供 〈 包 含 子 程序 头 的 ) 完 
整 的 子 程序 定义 。 


A.25 预定 义 函 数 和 语言 属性 


Ada/CS 包 括 普 通 的 预定 义 图 数 〈 如 Substr)， 这 些 函 数 被 包含 在 标准 环境 中 。Ada/CS 也 包含 语言 属 
^ (language attribute) 的 概念 ， 它 提供 一 个 对 象 或 类 型 的 某 种 性 质 。 属 性 表达 式 的 形式 为 
Name'Attribute。Narme 是 对 象 或 类 型 的 名 字 ; Attribute 是 我 们 所 希望 的 特定 属性 。 因 此 ，T'First 给 出 名 
字 为 1 的 类 型 或 子 类 型 所 允许 的 值 区 间 中 的 第 一 个 值 。 

(1) A' Len 

在 A 是 一 个 字符 串 表 达 式 时 有 定义 。 它 返回 一 个 代表 该 字符 串 中 字符 数 的 整数 值 。 

(2) Substr(A,S,L) 

A 必须 是 一 个 字符 串 表 达 式 ，S 是 正 整 数 ， 且 LL 是非 负 整数 。 它 返回 A 中 从 位 置 S 开 始 、 长 度 为 个 字 
符 的 子囊。 如 果 该 子 串 不 存在 ， 则 出 错 。A 最 左 端 字符 的 位 置 为 1。 

(3) T' Succ(A) 

A 必 须 是 枚 举 类 型 T 的 一 个 值 。 其 结果 为 其 直接 后 继 (如 果 存 在 的 话 )。 否 则 ， 抛 出 Constraint_Error 
异常 。 | 

(4) T' Pred(A) 

A 必 须 是 枚 举 类 型 T 的 一 个 值 。 其 结果 为 其 直接 前 驱 〈 如 果 存 在 的 话 )。 否 则 ， 抛 出 Constraint_Error 
异常 。 

(5) l' Char 

| 必须 是 一 个 整数 。 结果 是 相应 二 该 整数 的 (在 字符 序列 中 ) 长 度 为 1 的 字符 串 ; 如 果 不 存 在 这 样 的 
«Tr, W|d9dHiConstraint Errors. 

(6) T' Va(A) - 

A 是 任意 枚 举 类 型 的 一 个 值 ， 而 T 是 任意 枚 举 类 型 和 子 类 型 的 名 字 。A 以 如 下 方式 被 转换 为 枚 举 类 型 
的 相应 值 : 

所 有 枚 举 都 有 一 一 个 由 该 类 型 值 的 枚 举 顺序 所 确定 的 序数 值 。 对 于 除 整 数 之 外 的 枚 举 类 型 ， 该 值 从 0 
开始 。 对 于 整数 ， 值 i 是 其 自身 的 序数 值 。 两 个 值 相对 应 当 且 仅 当 它们 拥有 相同 的 序数 值 。 因此 ， 给 定 
type Boolean is (False, True) 和 type Color is (Red, Blue, Yellow, Green), ， 我 们 有 

Integer Val(False) = 0 

Boolean'Val(Blue) = True 

如 果 在 枚 举 类 型 中 没有 对 应 于 A 的 值 ， 则 抛 出 Constraint_Error 异 常 。(Boolean' Val(-1) 和 
Boolean’ Val(Green) 将 抛 出 异常 。) 

(7) T'First | 

如 果 T 是 一 个 枚 举 类 型 或 子 类 型 ，T' First 是 T 所 允许 的 区 间 中 的 第 一 个 值 。 如 果 T 是 一 个 数组 类 型 或 
对 象 ,T' First 给 出 第 一 个 下 标的 下 界 ; T' First(J) 给 出 第 J 个 下 标的 下 客 。 

(8) T' Last 

如 果 T 是 一 个 枚 举 类 型 或 子 类 型 ，T' Last 是 T 所 允许 的 区 间 中 的 最 后 一 个 值 。 如 果 T 是 一 个 数组 类 型 
或 对 象 ，T' Last 给 出 第 一 个 下 标的 上 界 ; T' First(J) 给 出 第 J 个 下 标的 上 界 。 

(9) T(E) 

如 果 T 是 一 个 算术 类 型 或 子 类 型 ， 且 E 是 一 个 算术 表达 式 ， 则 E 被 转换 为 类 型 T。 
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了 必须 是 一 个 类 型 名 ; E 是 任意 表达 式 。E 必 须 被 求 值 以 产生 一 个 T 类 型 的 值 。 这 种 形式 的 类 型 指定 
对 于 解决 重 载 冲突 是 有 用 的 。 


A26 Hi 


如 下 所 述 ， 包 被 设计 为 方便 用 户 定义 新 的 类 型 和 操作 。 除 非 允许 重 载 ， 否 则 新 定义 的 类 型 不 能 使 用 
已 有 的 运算 符 和 子 程 序 名 一 一 那 将 导致 不 一 致 的 和 难以 使 用 的 程序 。 | 

在 Ada/CS 中 ， 运 算 符 和 子 程序 名 可 以 被 重 载 。 两 个 定义 可 以 共享 (MER) 一 个 运算 符 或 子 程序 
名 ， 前 提 是 它们 的 参数 数目 、 参 数 类 型 或 者 返回 值 类 型 不 同 。 我 们 将 从 上 下 文中 确定 使 用 共存 定义 中 的 
哪 一 个 定义 。 如 果 不 能 做 出 惟一 选择 ， 则 程序 有 错误 。 这 样 的 错误 通常 可 以 通过 用 标识 符 或 运算 符 在 其 
中 定义 的 块 、 子 程序 或 包 来 限定 它们 而 得 到 解决 (例如 ，Sqrt.Min(X) 而 不 是 Min(X) )。 拥 有 相同 参数 数 
目 和 相同 参数 类 型 以 及 相同 结果 类 型 的 运算 符 或 子 程序 不 能 共存 。 如 果 一 个 定义 和 另 一 个 定义 处 于 不 同 
的 作用 域 中 ,， 则 应 用 通常 的 作用 域 规则 ， 而 且 内 部 定义 将 遮蔽 外 部 定义 。 如 果 两 个 定义 处 于 同一 作用 域 ， 
则 程序 具有 一 个 多 重 定义 错误 。 

在 所 有 情况 的 遮蔽 (包括 变量 、 类 型 和 常量 名 ) 中 ， 显 式 限 定 可 被 用 来 引用 一 个 被 谈 项 的 名 字 (这 
也 是 为 什么 允许 为 块 命名 的 原因 )。 只 有 运算 符 和 子 程序 名 能 被 重 载 。 其 他 所 有 名 字 都 必须 拥有 由 作用 
域 规则 所 确定 的 惟一 定义 。 


A.27 包 


实际 的 程序 设计 语言 需要 某 种 机 制 将 程序 模块 化 。 模 块 化 对 于 将 大 的 程序 组 织 为 可 管理 的 单元 、 允 
许 程序 片段 组 成 的 库 以 及 允许 程序 单元 的 分 离 编 译 来 说 是 必需 的 。 在 Ada7CS 中 ， 模 块 化 的 单位 是 色 
(package )。 一 个 Ada/CS 程 序 就 是 一 个 或 多 个 包 的 序列 。 包 的 形式 为 


package ID is 

Type, variable, constant and subprogram headers 
private 

Type declarations 


y a 
Type, variable, constant and subprogram declarations 
i 


n 

Statement list 
exception 

Exception handler declarations 
end; 


如 果 没 有 私有 类 型 或 异常 处 理 程序 ， 则 private 和 exception 部 分 可 以 被 省 略 ; 语句 列表 部 分 和 之 前 的 
begin 也 是 可 选 的 。 

在 Ada 中 ， 一 个 包 必 须 被 划分 为 独立 的 声明 和 主体 部 分 ， 如 下 所 示 。 在 Ada/CS 中 ， 这 种 划分 是 允许 
的 但 不 是 必需 的 。 


package iD is 

Type, variable, constant and subprogram headers 
private 

Type declarations 
end; 


package body iD is 
Type, variable, constant and subprogram declarations 


in 
Statement list 
ex 
Exception handler declarations 
end; 
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这 种 分 离 有 两 个 目的 。 如 果 两 个 包 必须 互相 引用 ， 我 们 能 够 通过 首先 列 出 包 的 声明 并 随后 列 出 主体 
部 分 来 避免 前 向 引用 ， 如 同 对 子 程序 所 做 的 那样 。 更 重要 的 是 ， 包 声明 部 分 包含 编译 对 包 组 件 的 引用 所 
需 的 所 有 信息 。 这 意味 着 各 个 包 的 主体 可 以 被 预 编译 并 链接 起 来 以 形成 一 个 可 执行 的 目标 程序 。 

出 现在 包 声 明 部 分 的 类 型 、 变 量 、 常 量 和 子 程序 头 可 以 对 其 他 包 可 见 。 它 们 因此 被 称 为 包 的 可 见 部 
分 (visible part)。 对 象 可 以 通过 用 它 所 在 的 包 名 来 限定 它 的 对 象 名 这 种 方式 来 引用 。 因 此 ，P.A 指 示 包 
P 中 的 对 象 A。 访 问 包 声 明 部 分 里 的 对 象 的 另 一 种 方式 是 使 用 如 下 所 述 的 use 语 句 。 

我 们 希望 使 用 包 来 实现 抽象 数据 类 型 ， 但 这 种 用 法 导致 一 个 问题 。 如 果 将 类 型 定义 放 在 包 的 可 见 部 
分 ， 则 它 的 实现 在 包 外 可 见 。 这 种 可 见 性 不 是 我 们 所 希望 的 ， 而 我 们 希望 的 是 通过 抽象 数据 类 型 的 操作 
而 不 是 其 实现 来 刻画 它 。 放 在 包 主 体 中 的 声明 在 包 外 永远 不 可 见 ， 因 此 不 能 将 抽象 数据 类 型 的 定义 放 在 
那里 。 包 声明 的 private 部 分 用 于 解决 这 个 问题 。 在 包 的 可 见 部 分 ， 类 型 被 声明 为 private ， 类 型 的 实现 
被 隐藏 在 private 部 分 中 。 因 此 ， 在 以 下 声明 中 : 

package Set_Stuff is 

type Set is private; 

private 


type Set is array(1 .. Max Set) of Boolean; 
end Set Stuff; 


类 型 名 Set 是 可 见 的 ， 但 它 被 实现 为 数组 这 一 事实 是 不 可 见 的 。 假 如 所 有 声明 都 在 可 见 部 分 ， 则 其 实现 
应 当 是 可 见 的 。 通 过 使 类 型 私有 ， 可 以 保证 它们 仅 由 包 自 身 所 定义 的 操作 、 加 上 自动 提供 给 私有 类 型 的 
赋值 和 相等 运算 符 来 操纵 。 包 主体 中 的 所 有 声明 对 包 的 外 部 都 是 完全 隐藏 的 。 规 范 部 分 的 声明 在 主体 部 
分 中 可 见 ， 而 主体 部 分 负责 实现 在 规范 部 分 声明 的 子 程序 。 在 声明 部 分 中 声明 的 子 程序 必须 在 包 的 主体 
部 分 中 定义 。 如 果 没 有 声明 子 程序 ， 则 包 主 体 部 分 是 不 需要 的 。 例 如 | 


package Set Stuff is 
type Set is private; 
function In (I:Integer; S:Set) return Boolean; 
private 

type Set is array(1 .. Max Set) of Boolean; 
body 

function In (I:Integer; S:Set) return Boolean; 


begin 
return S(l); 
end; 
end Set Stuff; 


跟 在 声明 后 面 的 包 主 体 部 分 中 的 语句 (如果 有 的 话 ) 在 执行 包 主体 时 被 执行 。 包 主体 以 其 组 成 主 程 
序 的 顺序 执行 。 如 果 一 个 包 是 单独 编译 的 ， 我 们 插入 桩 代码 | 
package body ID is separate, 
来 标记 在 哪里 插入 单独 编译 的 主体 。 通 常 ， 除 最 后 一 个 包 主体 外 的 所 有 包 主 体 都 只 包含 初始 化 代码 。 最 
后 一 个 包 主 体 事实 上 是 主 程序 ， 因 此 访 包 最 有 可 能 会 拥有 跟 在 声明 后 面 的 语句 。 
在 包 中 声明 的 所 有 变量 和 常量 (但 不 包括 包 内 子 程序 中 声明 的 变量 和 常量 ) 都 是 静态 的 。 也 就 是 说 ， 
它们 在 包 被 执行 时 被 创建 ， 并 在 包 主体 被 执行 之 后 继续 存在 。 这 种 设计 是 必要 的 ， 因 为 后 面 的 包 可 能 引 
用 前 面 这 些 包 中 的 对 象 。 


A.28 use) 


.use 子 句 ( 它 可 选 地 放 在 声明 段 前 ) 可 以 指定 一 个 或 多 个 包 的 可 见 部 分 为 可 访问 的 。 声 明 
use p1, p2,. . ., pn; 
(其 中 p1, p2, .. ~ pn 指定 包 名 ) 导致 包 的 所 有 可 见 定义 成 为 可 访问 的 (就 像 它们 已 经 在 本 地 定义 )。 然 
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而 ， 有 特殊 规则 控制 名 字 冲 突 : 
* 如 果 一 个 名 字 可 以 利用 通常 的 作用 域 规则 找到 (排除 由 包 所 提供 的 名 字 )， 则 它 总 是 可 应 用 的 。 
(来 自 包 的 名 字 仅 在 不 遮蔽 其 他 已 有 名 字 时 才 被 允许 ) 。 
。 如 果 use 列 表 中 的 多 个 包 提供 相同 的 名 字 ， 则 将 不 包含 这 些 冲 突 的 包 定 义 中 的 任何 一 个 。( 该 规则 
确保 use 列 表 中 指定 的 包 的 顺序 是 无 关 紧 要 的 )。 
use 子 名 可 以 引入 重 载 ， 只 要 没有 声明 被 遮 项 并 且 没 有 冲突 的 声明 被 引信。 例如、 假定 
function "+" (X,Y : Matrix) return Matrix; 
处 于 use 子 句 所 指定 的 某 个 包 的 可 见 部 分 。 只 要 在 两 个 Matrix 对 象 上 的 “+” 定 义 先前 不 存在 或 它 不 会 出 
现在 use 子 句 所 指定 的 其 他 包 中 ， 则 该 “+” 定 义 将 被 允许 重 载 已 有 的 定义 。 


A.29 异常 


程序 有 时 必须 处 理 未 预料 到 的 情况 或 出 错 的 情况 。 为 此 目的 ，Ada/CS 提 供 了 异常 。 异 常 被 声明 在 
块 、 子 程序 或 包 的 声明 部 分 里 ， 例 如 
legal Data, Symbol Table Full : exception; 
Ada/CS 提 供 了 许多 预定 义 的 异常 : 
* Constraint Error | 
在 一 个 数组 下 标 越界 或 者 违反 了 区 间 约 束 时 抛 出 。 
* Numeric, Error 
fe kit. Pik. BER RRA. 
e Storage_Error 
在 存储 请 求 不 能 满足 时 抛 出 。 
e Time Limit 
在 达到 执行 时 间 限 制 时 抛 出 。 
* Eof Error 
在 试图 越过 文件 结束 符 读数 据 时 抛 出 。 
* [nvalid Input 
在 试图 读 取 无 效 输入 项 时 抛 出 。 
预定 义 的 异常 可 以 在 执行 时 作为 运行 时 错误 的 结果 而 被 自动 抛 出 。 所 有 异常 都 可 以 由 raise 语 句 显 
式 地 抛 出 ， 例 如 : 


raise Invalid Input; 


当 一 个 异常 在 某 条 语句 执行 过 程 中 被 抛 出 时 ， 则 语句 执行 被 中 断 ， 并 在 直接 外 围 块 、 子 程序 或 包 的 异常 
部 分 查找 异常 处 理 程序 (exception handler)。 异 常 部 分 看 起 来 非常 像 一 条 Case 语句 ， 只 是 其 选项 都 标 以 


异常 名 : | 752 
exception | 
when exception | . . . | exception => sequence of statements; 


when exception | . . . | exception => sequence of statements; 


像 case 语 名 一样 ， 最 后 一 个 when 可 以 使 用 选项 others 来 覆盖 所 有 没有 被 显 式 指定 的 异常 。 

如 果 找 到 一 个 异常 处 理 程序 ， 则 执行 相应 的 语句 ， 并 且 随 后 退出 该 块 、 子 程序 或 包 。 所 执行 的 语句 
遵守 与 块 、 子 程序 或 包 中 的 其 他 语句 相同 的 作用 域 规则 。 在 抛 出 异常 的 点 的 执行 不 被 恢复 。 

如 果 没 有 找到 异常 处 理 程 序 ， 则 传播 该 异常 。 当 异常 从 一 个 块 中 传播 出 来 时 ， 将 检查 直接 包含 该 块 
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的 程序 估 、 子 程序 或 包 的 异常 部 分 。 当 异 芝 从 一 个 子 程序 中 传播 出 来 时 ， 将 返回 到 调用 点 并 检查 直接 包 
含 该 调用 的 块 、 子 程序 或 包 的 异常 部 分 。 当 异常 从 一 个 包 中 传播 出 来 时 ， 将 用 一 条 指定 所 抛 出 异常 名 的 
出 错 信 息 来 终止 执行 。 

要 处 理 在 声明 或 异常 处 理 程序 的 执行 期 间 所 抛 出 的 异常 ， 方 法 是 将 该 异常 从 直接 包含 出 现 异 党 的 声 
明 或 异常 处 理 程序 的 块 、 子 程序 或 包 中 传播 出 来 。 


A.30 Ada/CS 文 法 


下 面 列 出 Ada/CS 的 扩展 BNEF 文 法 。 非 终结 符号 被 置 于 “<” 和 “>” 中 。 保 留 字 用 粗 黑体 表示 ， 词 
法 记号 类 是 没有 被 界定 的 单词 ， 所 有 其 他 符号 〈 除 [、1、{ 和 } 之 外 ) 将 表示 它们 自身 。 符 号 一 分 隔 产生 
式 的 左 部 和 右 部 。 如 果 没 有 左 部 ， 则 认为 左 部 为 前 面 一 个 产生 式 的 左 部 。 


一 <pragma iist> <compilation unit> 

{ <pragma list> <compilation unit> } 
— { <pragma> } 
— pragma id ; 


<compilation> 


«pragma list» 
«pragma» 


«compilation unit» — «package declaration» 


«package declaration» — package «package spec or body» ; 
«package spec or body» — «id» is ( «spec declaration» ) [ «private part» ] 
«body option» end «id option» ; 
— body «id» is { «body declaration» } 
[ begin ( «statement» } ] [ «exception pan> ] 
end «id option» ; 
«body option» — [body ( «body declaration» } 
[ begin { «statement» ) ] [ «exception part» ] ] 
«id option» 一 [<id> ] 
«spec declaration» — «private type declaration 
— «declaration» 
«private type declaration — type «id» is private ; 
«private part — private «private item» ( «private item» } 


«private item» 
«body declaration» 


«declaration» 


«object declaration» 


«id list» 
«id» 
«constant option 


«type or subtype» 


<initialization option 


«type declaration» 


-> subtype «id» is «subtype definition» ; 
— type «id» is «type definition» ; 


一 «subprogram body decl» 
— «declaration» 


一 «object declaration» 

— «type declaration 

— «subtype declaration» 

一 «pragma» 

— «subprogram declaration» 
一 use «name list» ; 


— «id list» exception ; 


— «id list» : «constant option» «type or subtype» 
«initialization option» ; 


— «id» ( , «id» } 
— Identifier 
一 [constant ] 


— «type» 
— «subtype definition» 


一 [ := «expression» ] 


— type «id» is «type definition» ; 
— «incomplete type decl» 





<type> 


<type name> 
<type definition> 


«incomplete type decl» 


«record type definition 


«component list 


«component declaration 


«variant part» 


«variant» 
«v choice» 


«array type definition? 


«unconstrained array def» 
«unconstrained index list> ' 
«index subtype def 
«constrained array def» 
«constrained index list» 
«element type» . 
«enumeration type def> 
«enumeration id list» 


«subtype declaration» 
«subtype» 


«subtype definition» 


«range constraint» 
«range» 
«index constraint» 


«discrete range» 
«subprogram declaration? 
«subprogram body deci» 


«subprogram specification» 


«designator» 


«operator symbol» 
<formai part» 


«formal part opt» 
«parameter declaration list> 


Li 


一 <type name> 
一 «type definition 


— «id» 


— «record type definition» 
— «array type definition 
— «enumeration type def> 
— access «subtype» 


— type «id» ; 


— record «component list» 
end record 


— «component declaration» ( «component declaration» } 
— ( «component declaration» } «variant part» 
— null ; 


—. «id list» : «type or subtype» <initialization option? ; 


— case «id» : «type name» is «variant» 
( «variant» } end case ; 


-> when «v choice» => «component list» 

— <simple expression> 

一 <unconstrained array def> 

— «constrained array det» 

— array <unconstrained index list» of «element type» 
_» ( «index subtype def» (, «index subtype def») ) 
— «type name» range «» | 

一 array «constrained index list» of «element type» 
=> { <discrete range> {, <discrete range>} ) 

— «type or subtype» 

— ( «enumeration id list» ) 

«id» ( , «id» } 

subtype «id» is «subtype definition» ; 


«type name» 
«subtype definition» 


[ «type name» ] «range constraint» 

«type name» «index constraint» 

range «range» 

«simple expression» .. «simple expression» 
( «discrete range» (, «discrete range») ) 


«subtype 
«range» 
«subprogram specification» ; 
«subprogram spaeilication» is { <bedy eeclaration» ) 
"begin ( «statement ) Í «excoption puo | 
end «id option ; 


— procedure «id» «formal part opt» 
—, function «designator» «formal part opt» 


— «id» 

一 «operator symbol» 

— StrLiteral 

— («parameter declaration list» ) 
— [«formal part» ] 


-一 «parameter deci» ( ; <parameter deci» ) 
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<parameter decl> 
«mode» 


«exception part» 
«exception handler» 
«exception when tail» 


«statement» 


«null statement» 
«assignment statement» 
«call statement» 
«block» 


«deci part» 
«return statement» 
«raise statement» 
«if statement» 


«else part> 

«loop statement» 
«basic loop» 
«iteration clause» 


«exit statement» 


«case statement» 


«when list» 
«others option» 
«choice list» 


«choice» 

«b expr» 
«expression» 
«relation» 

«simple expression» 


«term» 
«factor» 


— <id list> : [ «mode» ] «type or subtype» 


 — in[out] 


— out 
— exception ( «exception handler» ) 
— when «exception when tail» 


— others => ( «statement- } 
— <name> { | «name» } => ( «statement» } 


— «name» := «expression» ; 
一 <name> ; 


一 [ «id» : ] [ <decl part» ] begin ( «statement» } 
[ «exception part» ] end [ «id» ] ; 


— deciare ( «body declaration» } 
一 return [ «expression» ] ; 
— raise «name option» ; 


一 Wf «b expr> then ( «statement» } 
{ elsif <b expr> then { «statoment» ] } { «eise part» | 


— else ( «statement» ) 


— [«id» : ][ «iteration clause» ] «basic loop» ; 
— loop { «statement» ) end loop 


— while «b expr> 
— for «id» in [ reverse ] «discrete range» 


— exit [<name> ] [ when «b expr> ] ; 


— case «expression» is «when list» «others option» 
end case; 


( when «choice list» => ( «statement» ) } 
[ when others => ( «statement» } ] 
«choice» { | «choice» } 
«expression» 
«expression» .. «expression» 
— «expression» 
— «relation» ( «logical op» «relation» ) 
— «relation» { and then «relation» ) 
一 «relation» { or else «relation» ) 
— «simple expression» 

[ «relational op» «simple expression» ] 
—> [ «unary adding op» ] «term» ( «adding op» «term» ) 
— «factor» ( <multiplying op» «factor» ) 
> «primary» [ ++ «primary» ] 
— not «primary» 
一 abs «primary» 
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<primary> 


<literal> 


«logical op» 


«relational op» 


«adding op» 


«unary adding op» 

«multiplying op» 

<name> 

<simple name> 
<name suffix> 


«selected suffix> 


<aggregate> 
<component> 
<agg choice list> 
<agg choice> 


«nare list» 


— «literal» 

—) «name» 

— ( «expression» ) 
— aggregate 

— IntLiteral 

— FloatLiteral 

— StrLiteral 


— and 
— or 


— = 
一 /= 
-> < 
— <= 
— > 
— >= 


-> + 
— 一 
一 å 


> + 
— 一 


— * 
=> / 
— mod 


一 «simple name» ( «name suffix» ) [. all} 
— «id» 


— . «selected suffix» 
— ( «expression» ( , «expression» ) ) 
— ' «id» 


— «id» 

— «operator symbol» 

— «name» ' ( «component» ( , «component } ) 
— [«agg choice list» => ] «expression» 

— «agg choice» { | «agg choice» } 

— «simple name» 

— «simple expression» 

— «discrete range» 

— others 


— «name» ( , «name» } 
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MiB ScanGen 


ScanGen 由 Gary Sevitsky 编 写 并 随后 由 Robert Gray 进行 了 增强 。 最 近 的 改动 由 Charies Fischer 完 成 。 
ScanGen 接 受 以 正则 表达 式 书 写 的 词法 记号 描述 并 产生 可 用 于 驱动 词法 分 析 器 的 表格 。 


B.1 输入 规范 
输入 格式 将 通过 带 注释 的 示例 进行 介绍 ， 由 图 B-1 开 始 。 


Options 
tables, list 
Class 
letter 
digit 


blank 
Definition 
Token emptyspace (0)  - blank*; 
Token identifier (1) = letter. (letter, digit)*: 
Token number (2) = digit+; 





图 B-1 一 个 简单 的 ScanGen 规 范 


ScanGen 的 规范 包含 三 部 分 : 所 选择 的 选项 、 类 定义 和 正则 表达 式 定 又 。 

选项 部 分 是 可 选 的 。 如 果 有 选项 部 分 ， 则 它 会 以 保留 字 OPtions 开 头 ， 后 面 跟 一 个 或 多 个 选项 名 
(不 是 保留 字 )。 选 项 名 可 以 以 任何 顺序 出 现 ， 并 以 空格 或 逗号 分 隔 。 选 项 的 完整 列表 在 B.3 节 中 给 出 。 

类 定义 指定 那些 组 成 正则 表达 式 所 用 字母 表 的 字符 类 。 字 符 类 是 如 图 B-1 中 那样 通过 使 用 引号 中 的 
单独 的 字符 或 字符 区 间 来 定义 的 字符 集 。 为 指定 引号 字符 ,使 用 ''''。 不 可 打印 字符 通过 其 等 价 的 十 进 
制 数 表 示 。 例 如 ， 换 行 符 可 以 通过 linefeed = 10 (或 者 你 的 字符 集中 的 相应 数字 ) 来 指定 。 

如 果 在 类 定义 中 没有 提 和 到 某 个 字符 , 则 它 不 能 在 输出 表格 中 创建 任何 词法 分 析 器 动作 : 它 将 被 名 略 。 
生成 器 将 未 提 及 的 字符 放 在 字符 类 Epsilon 中 。 每 个 字符 至 多 可 被 赋 给 一 个 字符 类 。 

要 构造 用 于 指定 词法 记号 的 正则 表达 式 定义 ， 需要 利用 字符 类 和 下 列 运 算 (以 优先 级 降序 列 出 ): 
EHE (+) 和 Kleene 闭 包 (*)， 连 接 (.) 和 联合 (,)。 可 以 通过 使 用 插 号 来 改变 优先 级 。 每 个 词法 记 
号 名 后 面 跟 一 个 词法 记号 编号 。 词 法 记号 编号 出 现在 输出 表格 中 ， 使 得 词法 分 析 器 可 以 在 识别 词法 记号 
时 返回 一 个 词 半 记 号 编号 。 

图 B-2 举 例 说 明了 定义 正则 表达 式 的 更 复杂 方式 。 第 二 个 定义 ， 即 Zettez 的 定义 ， 没 有 定义 词法 记 
Eo 它 定 义 了 一 个 可 用 于 后 续 定义 的 辅助 正则 表达 式 。 词 法 记号 也 可 以 用 于 后 续 定义 中 ; 例如 ， 
IntLit 可 以 用 于 RealL it 的 定义 中 。 

该 规范 语言 的 另 一 个 特性 是 异常 列表 (exception list)， 它 可 以 用 于 Identifier 的 定义 中 。 异 常 列 
表 由 称 为 保留 字 的 字符 串 组 成 ， 长 度 小 于 等 于 12， 后 面 跟 词法 记号 编号 。 异 常 列表 不 会 影响 输出 表格 ; 
它 被 单独 存储 以 便 词 法 分 析 器 可 以 访问 它 。 

在 IntLit、RealLit 和 StrLit 的 定义 中 ， 有 两 个 词法 记号 编号 跟 在 词法 记号 名 后 面 ， 它 们 是 : È 
词法 记号 编号 (major token number) 和 次 词法 记号 编号 (minor token number)。 主 词法 记号 编号 可 以 用 
于 定义 一 个 词法 记号 类 ， 次 词法 记号 编号 可 以 用 于 指定 该 类 的 成 员 。 如 果 设 有 指定 次 词法 记号 编号 ， 则 
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^E a FE HE BERR ESO. iki Saa a USES SEC. A SaaS AAA FEREARE. 
习惯 上 ， 将 要 被 删除 的 词法 记号 (注释 、 空 格 、 制 表 符 ) 的 主 词法 记号 编号 为 0。 


Options 
List, tables 


Class 


E 
OtherLetter 
Digat 
Blank 

Dot 

Plus 
Minus. 
Quote 
Linefeed 


- 
= xot. ` 
~ + 
e ^ ^ ^ 5 - % a 
-—- TP Se wa My wy . - 
a La 


hun nahn a 


Definition 
Token EmptySpace {0} = (Blank, Linefeed) +; 
Letter = E, OtherLetter; 
Token Identifier {1} z Letter. (Letter,Digit)* 
Except 
‘begin’ (4), 
'end' (5); 
Token IntLit {2,1} = Digit+; 
Token RealLit {2,2} = IntLit.Dot.IntLit. 
(Epsilon, E. (Epsilon, Plus, Minus) .IntLit); 
Token StrLit (2,3) = Quote {Toss}. 
(Not (Quote, Linefeed) , Quote{Toss} .Quote)* 
. Quote{Toss}; 


Token RunOnString {3} = Quote(Toss). 
(Not (Quote, Linefeed), Quote([Toss).Quote)* 
. Linefeed{Toss}; 





图 B-2 一 个 更 筑 杂 的 ScanGen 规 范 


在 RealLit 的 定义 中 使 用 了 字符 类 Epsilon ， 使 得 输出 表格 将 识别 设 有 指数 部 分 的 数 和 带 无 符号 指 
数 的 数 。 

Not 运 算 在 StrLit 和 RunonString 的 定义 中 使 用 。 该 运算 仅 可 用 于 求 一 个 字符 类 联合 的 补 集 。 补 
集 的 取得 相对 于 类 定义 中 所 指定 的 类 。 换 句 话 说， 字符 类 EBPpsilon 不 在 补 集中 。 

Toss 特 性 出 现在 StrLit 和 RunonStzing 的 定义 中 。 该 特性 用 于 告诉 词法 分 析 器 是 否 把 一 个 字符 起 
加 到 它 正在 创建 的 词法 记号 串 的 末尾 。 如 果 不 追 加 一 个 字符 ， 则 将 ross 放 在 词法 记号 定义 中 其 字符 类 名 
的 后 面 。Toss 只 能 出 现在 字符 类 名 或 Not(… ) 后 面 。Toss 特 性 的 误 用 会 导致 一 个 丢弃 /保存 冲突 。 例 如 ， 
如 果 StrLit 由 | 


Quote(Toss) . (Not(Quote, Linefeed), Quote.Quote(Toss))* 
. Quote[Toss) 


定义 ， 则 会 发 生 一 个 丢弃 /保存 冲突 。 

该 冲突 可 以 通过 比较 字符 串 'a' 和 'a''b' 的 词法 分 析 器 动作 而 被 发 现 。 在 第 一 种 情况 下 ， 词 法 分 析 
器 被 告知 丢弃 跟 在 a 后 面 的 引号 ; 但 在 第 二 种 情况 下 ， 该 字符 将 被 保存 。 当 发 生 一 个 丢弃 /保存 冲突 时 ， 
生成 器 将 打印 一 条 出 错 信息 。 

输入 规范 可 以 用 每 行 最 多 132 个 字符 的 自由 格式 书写 。 非 法 符号 会 被 忽略 ， 并 打印 一 条 警告 信息 。 
标识 符 可 以 为 任意 长 度 ， 但 只 有 前 12 个 字符 被 检查 。 标 识 符 的 大 小 写 会 被 忽略 〈 即 ，RABC 和 abc 是 相同 
的 标识 符 )。 保 留 字 Class、Definition、Epsilon、Except、Not、Token、OPtions 和 Toss 中 的 大 


小 写 也 会 被 忽略 。 当 发 现 一 个 语法 错误 时 ， 生 成 器 将 打印 一 条 出 错 信 息 并 终止 。 


B.2 输出 
当 使 用 tables 选 项 上 时， 将 产生 外 部 文件 tables 。 该 文件 由 下 列 5 段 组 成 : 
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PIR: 词法 分 析 器 参数 
一 系列 由 空格 隔 开 的 项 ， 每 项 含 5 个 整数 。 
NumStates 
最 小 DFA 的 状态 数 。 
StartState 
最 小 DFA 的 初始 状态 。 
NumClasses 
由 用 户 定 义 的 字符 类 数目 (不 包括 Epsilon )。 
NumResWords 
在 Bxcept 子 句 中 定义 的 保留 字 总 数 。 
NumLists 
拥有 异常 列表 的 词法 记号 名 的 数目 。 
SOR: 字符 类 了 映射 
一 系列 由 空格 隔 开 的 项 ， 每 项 含 N 个 整数 ， 指 定 每 个 字符 被 赋予 的 字符 类 。N 由 配置 ScanGen 所 使 
用 的 字符 集 确定 (对 ASCII，N=128; 对 EBCDIC，N=256)。 列 表 中 第 i 个 元 素 是 赋 给 其 值 (ord) 为 i 的 
字符 的 类 编号 。 字 符 类 Epsilon 的 编号 为 0， 因 此 ， 不 显 式 赋予 任何 类 的 字符 将 被 指定 字符 类 编号 为 0。 
第 3 段 : 保留 字 到 词法 符号 的 映射 | 
包含 NumLists 条 记录 ， 每 条 记录 的 形式 为 
Major Minor FirstRSW LastRSW 


Major 和 Minor 是 以 保留 字 FirstRSW 到 LastRSW 作 为 异常 的 词法 记号 类 的 数目 。FirstRSW 和 LastRSW 
是 组 成 该 输出 文件 第 4 段 的 保留 字 表 中 的 索引 。 保 留 字 编 号 从 1 开始 。 该 段 中 的 信息 仅 当 多 个 词法 记号 定 
义 拥有 异常 列表 时 才 是 重要 的 。 

第 4 段 : 保留 宇 列表 

包含 NumResWords 条 记录 ， 每 条 记录 的 形式 为 

Word (columns 1-12) Major Minor 

Major 和 Minor 是 保留 字 的 词法 记号 编号 ， 以 空格 分 隔 。 

第 5 段 : 最 小 确定 有 限 自动 机 的 转换 表 

转换 表 被 写成 NumStates x NumClasses 个 条 目的 数组 。 状 态 和 类 的 编号 都 从 1 开始 。 数 组 以 行 主 
序 书写 ， 这 意味 着 类 编号 变化 得 更 快 。 

每 个 条 目的 第 一 个 整数 指示 出 转换 类 型 : Error. MoveAppend. MoveNoAppend, HaltAppend. 
HaltNoAppend 和 HaltReuse。 这 个 整数 后 面 跟 0 ~ 2 个 整数 (具体 数目 依赖 于 转换 类 型 ) ， 它 们 给 出 基于 


转换 的 更 多 信息 。 

转换 具有 以 下 几 种 形式 : 

0 一 一 Error 

1 NextState — — MoveAppend: 移动 到 NextState 并 将 当前 字符 追加 到 正在 组 
装 的 词法 记号 的 末尾 。 

2 NextState —— MoveNoAppend: 移动 到 NextState 并 消耗 当前 字符 ， 但 不 将 其 
追加 到 当前 词法 记号 的 末尾 。 

3 Major Minor 一 一 HaltAppend: 停止 ， 返 回 词法 记号 编号 Major 和 Minor， 并 将 


当前 字符 追加 到 当前 词法 记号 的 末尾 。 
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4 Major Minor 


5 Major Minor 


B.3 杂项 


Af RB 
一 一 HaltNoAppend: 停止 ， 返 回 词法 记号 编号 Major 和 Minor， 并 消 
耗 当前 字符 ,但 不 将 其 追加 到 当前 词法 记号 的 
末尾 。 
——— HaltReuse: 停止 ， 返 回 词法 记号 编号 Major 和 Minor， 保 存 


当前 字符 以 便 在 下 一 个 词法 记号 中 复 用 ， 并 且 
不 将 其 追加 到 当前 词法 记号 的 末尾 。 


这 个 词法 分 析 器 生成 器 产生 仅 使 用 一 个 超前 搜索 字符 的 表格 。 该 表格 不 能 直接 处 理 Pascal 和 Ada/Cs 
的 “..” 问 题 或 FORTRAN 的 “.EQ.” 问 题 。 然 而 ， 多 字符 超前 搜索 问题 可 以 通过 保存 在 扫 摘 一 个 词法 记 
号 时 所 访问 的 状态 序列 并 回 退 到 其 中 最 后 的 终结 状态 来 处 理 。 

该 表格 总 是 识别 最 长 可 能 的 词法 记号 串 。 如 果 整 个 词法 记号 类 每 次 都 是 以 另 一 个 类 的 某 个 成 员 的 前 
级 形式 出 现 ， 则 可 能 无 法 识别 该 词法 记号 类 。 

如 果 一 个 状态 是 多 个 词法 记号 类 的 终结 状态 ， 则 在 输入 文件 中 定义 的 第 一 个 词法 记号 类 将 是 被 接受 
的 一 个 类 。 如 果 一 个 词法 记号 类 包含 着 另 一 个 词法 记号 类 ， 则 此 约定 是 很 重要 的 。 例 如 ， 在 用 于 AdalCS 
的 定义 (LF) 中 ，RealLit 的 定义 包含 整数 常量 。 然 而 ， 因 为 IntLit 在 RealLit 之 前 ， 所 以 数字 序列 
将 被 正确 地 扫描 为 整数 而 不 是 实数 常量 。 

根据 要 处 理 的 正则 表达 式 的 大 小 和 复杂 度 ，ScanGen 中 常量 Maxsubsets 的 值 可 以 被 改变 (其 初始 
设 定 为 75000)。 减 小 MaxSubsets 可 以 显著 地 缩小 程序 的 大 小 ; 增加 它 会 允许 处 理 更 大 和 更 复杂 的 定义 。 


B.4 _ ScanGen 选 项 


List: 
Dfa: 
Report: 


Test: 


Tables: 


Optimize: 


在 标准 输出 文件 中 列 出 输入 规范 。 

打印 词法 分 析 器 生成 器 所 构造 的 最 小 PFA。 

打印 由 以 下 部 分 组 成 的 报告 : 

1) 字符 类 名 和 字符 类 编号 的 对 应 关系 。 

2) 字符 到 字符 类 编号 的 映射 。 

3) 保留 宇和 它们 被 赋予 的 词法 记号 类 编号 的 列表 。 

使 用 文件 testfile 作 为 词法 分 析 器 的 样本 输入 来 测试 DFA。 词 法 分 析 器 将 列 出 
在 扫描 每 个 符号 时 的 动作 并 在 到 达 文 件 结尾 时 终止 。 建 议 测 试 文件 保持 短小 。 也 
可 以 把 选项 Dfa 的 输出 放 在 旁边 对 照 。 

产生 文件 tables ， 其 中 包含 字符 类 上 映射、 保留 字 列表 和 转换 表 。 

优化 由 ScanGen 所 创建 的 表格 。 在 产生 用 于 词法 分 析 的 表格 时 必须 总 是 使 用 该 选 
项 。 在 调试 运行 中 不 必 使 用 该 选项 。 


用 于 ScanGen 自 身 调试 的 其 他 选项 在 ScanGen 的 源码 中 说 明 。 


B.5 Ada/CS 的 ScanGen 定 义 


下 列 定 义 表示 一 个 ASCII 版 本 的 Ada/CS; EBCDIC 版 本 在 特定 字符 编码 的 赋值 上 会 有 不 同 。 


Options 


tables, optimize 


Class 
E = 
OtherLetter = 
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一 

Digit = ‘0’. .’9’; 

Linefeed = 10; 

Blank =’; 

Amper = '&; 

Quote mj". 

SingleQuote = '"; 

LParenChar z'(; 

RParenChar = ')’; 

Star = €; 

PlusChar = "+; 

MinusChar - 一 : 

DotChar z^. 

Slash = 'f; 

ColonChar mts 

Semi m: 

Less = <; 

Equal æ ‘mx’ 

Greater = >; 

BarChar x jl; 

CommaChar =’,’; 

UnderScore =; 

Tab = 9; 

Unprintable = 0..8,11..31,127; 

Illegal SS S P EN O C "VUSTY, IE, 1,775; 

Definition 

Letter = E,OtherLetter; 

Token Ampersand({6} = Amper {Toss}; 

Token Bar{5} = BarChar {Toss}; 

Token  Box(23) - Less(Toss) . Greater(Toss); 

Token  Becomes[(8) = ColonCharí(Toss).Equal(Toss): 

Token  Choose(24) = Equal(Toss). Greater {Toss}; 

Token Colon{19} ColonChar {Toss}; 

Token Comma(15) CommaChar {Toss} ; 

Token  Dot(16) DotChar (Toss); 

Token  DotDot(17) DotChar(Toss).DotChar(Toss): 

Token LParen{26} LParenChar (Toss): 

Token Minus{21} MinusChar {Toss} ; 

Token MultOp{22} Star {Toss}; 

Token DivOp{25} Slash[Toss); 

Token Plus{20} PlusChar {Toss}; 

Token LT{9} Less {Toss}; 

Token  LE(11) Less {Toss} .Equal(Toss); 

Token EQ{7} Equal {Toss}; 


Slash {Toss} .Equal {Toss}; 
Greater {Toss} .Equal {Toss}; 


Token NotEQ{13} 
Token GE{12} 


Token GT{10} Greater {Toss}; 
Token RParen{27} RParenChar {Toss}; 
Token  Semicolon(18) Semi {Toss}; 

Token  Tic(4) SingleQuote (Toss); 


Star {Toss} .Star{Toss}; 
Digit. (Digit, UnderScore{Toss})*; 
IntLit . (Epsilon, DotChar .IntLit). 
(Epsilon, (E. (Epsilon, PlusChar, MinusChar) 
.IntLit)): 
Token StringLit {3} = Quote(Toss). | 
(Not (Quote, Linefeed, Tab, Unprintable), 
Quote(Toss). Quote)*.Quote(Toss) ; 
Token EmptySpace{0} = (Blank {Toss}, Linefeed{Toss) , Tab[Toss)) *; 
Token Comment {0} x MinusChar {Toss} .MinusChar(Toss}. 
(Not Linefeed(Toss))*. 
Linefeed{Toss}; 
Token Identifier{1} = Letter. (Letter, Digit , UnderScore) * 
Except 
‘abs’ (28), 
‘and’ {29}, 
‘array’ {30}, 
‘pagin’ {31}, 
‘body’ (32), 
‘case (33), 
‘constant’ {34}, 
‘declare’ (35), 
‘else’ {36}, 
‘elsif {37}, 


Token ToThe{14} 
Token  IntLit(2,1] 
Token RealLit{2,2} 
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'end' (38), 
‘exception’ (39), 
‘exit’ (40), 
‘for’ (41), 
'function' (42), 
if’ (43), 

‘in’ {44}, 

"iw’ (45), 
‘Loop’ {46}, 
‘mod’ {47}, 
‘not’ (48), 
‘null’ (49), 
‘of’ (50), 

‘or’ {51}, 
‘others’ (52), 
‘out’ (53), 
‘package’ {54}, 
‘pragma’ {55}, 
‘private’ (56), 
‘procedure’ {57}, 
‘raise’ (58), 
'zrange' (59), 
‘record (60), 
'return' (61), 
'reverse (62), 
‘access (63), 
'subtype (64), 
'then' (65), 
'type' (66), 
'use' (67), 
‘when’ (68), . 
‘while’ (69), 
'all {70}; 





Af RB 








附录 C ”LLGen 用 户 手 册 


LLGen 接 受 上 下 文 无 关 文 法 规范 并 产生 用 于 分 析 指 定语 言 的 表格 。 它 能 对 任意 LL(1) 文 法 产生 表格 ， 
并 对 非 LL() 文 法 提供 简单 的 冲突 解决 机 制 。LLGen 是 FMQ 的 一 个 子 集 ， 是 一 个 LL(1) 分 析 器 /错误 修正 
器 的 生成 器 。FMQ 由 Jon Mauney 编 写 。 | 

该 报 告 描述 了 一 个 语言 翻译 工具 一 一 具体 说 ， 就 是 用 于 分 析 上 下 文 无 关 语 言 的 工具 。LLGen 是 一 个 
表 生 成 器 。 它 接受 用 以 下 所 描述 格式 指定 的 LL(1) 文 法 并 产生 可 用 于 语法 分 析 的 表格 。 通 过 语义 动作 编 
号 ，LLGen 也 提供 与 用 户 提供 的 语义 动作 的 接口 。 这 些 编 号 在 LLGen 的 输入 中 被 指定 并 出 现在 所 产生 的 
表格 中 。 

LLGen 的 一 个 典型 使 用 过 程 如 下 : 

1) 创建 一 个 指定 所 要 文法 的 文件 。 

2) 运行 LLGen， 将 文法 文件 定向 到 标准 输入 。LLGen 将 把 可 选 的 输出 和 出 错 信 息 (如 果 有 的 话 ) 发 
送 到 终端 (或 任何 形式 的 标准 输出 ) 并 创建 一 个 文件 ptableout 或 ptablebin 〈 见 下 面 C.2 节 )。 

3) 如 果 文 法 不 能 被 LLGen 接 受 ， 重 复 1 和 2。 

4) 在 LEL(D) 分 析 器 驱动 程序 中 使 用 ptableout 或 ptablebin 。 


C.1 LLGen 的 输入 


LLGen 的 输入 主要 有 3 段 : 运行 所 需 的 选项 、 文 法 的 终结 符号 以 及 文法 的 产生 式 规则 。 输 入 的 一 般 
形式 为 

<comments> 
*fmq 

«options» 
*define 

«constant definitions» 
*terminals 

«terminal specifications» 
*productions 

«production specifications» 
*end | 

«comments? 


示例 见 图 C-2。 

在 下 面 的 叙述 中 ， 符号 是 指 要 生成 表格 的 文法 中 的 符号 ， 而 词法 记号 是 指 LLGen 的 输入 中 的 实体 。 

通过 三 个 简单 规则 ， 可 以 将 LLGen 的 输入 划分 为 若干 个 词法 记号 : 

*。 所 有 词法 记号 必须 由 一 个 或 多 个 空白 、 制 表 符 或 行 结束 符 分隔 。 

。 词 法 记号 不 能 包含 空白 或 制 表 符 ， 除 非 该 词法 记号 被 置 于 尖 括 号 < 和 > 中 。 词 法 记号 不 能 跨越 行 边界 。 

。 如 果 一 个 词法 记号 以 < 开始 ， 则 它 必 须 以 > 结束 。 | 

也 就 是 说 ， 输 入 中 的 任何 东西 一 一 选项 名 、 保 留 字 、 文法 符号 都 必须 由 空白 符 分 隔 。 在 一 个 符 
号 中 含有 空白 符 时 可 以 使 用 尖 括 号 ,但 仅 当 第 一 个 字符 是 < 的 情况 下 它们 才 有 特殊 意义 。 出 现在 其 他 任 
何 环境 中 的 尖 括 号 是 合法 的 ， 但 没有 特殊 含义 (在 这 种 情况 下 将 给 出 一 条 警告 )。 其 他 符号 中 惟一 被 赋 
予 特殊 性 质 的 是 #， 它 是 所 有 动作 符号 (action symbol) 的 开始 字符 。 动 作 符 号 由 # 后 面 直接 跟随 无 符号 
整数 或 (如 下 所 述 的 ) 已 定义 常量 组 成 。 
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At RC 


大 写 和 小 写字 母 被 认为 是 不 同 的 ， 然 而 ， 被 保留 的 词法 记号 和 选项 无 论 大 写 、 小 写 或 大 小 写 混 合 都 
能 被 识别 。 图 C-1 中 给 出 的 示例 说 明了 上 述 规则 。 


词法 记号 
ABC 

abe 

123 

< Expr > 
<id list> 


<> 


<not<>equal> 
much<<lessthan 
<LHS>: :=<RHS> 


2<two tokens> 


*fmq 

*F MO 

*F mq 

#13 

 fadd 

xfmq«terminals 

<= 

< 

<bad>token 
下 列 词法 记号 是 被 保留 的 : 
*fmq  *define ‘terminals 
DI€- woe <Goal> 


OK ， 与 ABC 不 同 。 


合法 ， 得 到 一 条 警告 
合法 ， 得 到 一 条 警告 
合法， 得 到 一 条 警告 
合法 ， 得 到 一 条 警告 | 
合法 ， 得 到 一 条 警告 。 这 是 一 个 词法 记号 ， 而 不 是 三 个 。 
合法 ， 两 个 词法 记号 ， 两 条 警告 
(< 仅 当 首先 出 现时 才 是 特殊 的 ) 
”保留 
保留 ， 与 *Emq 相 辣 
保留 ， 与 x*fmq 相 同 
合法 ， 例 程 13 的 动作 符号 
合法 ，agdd 应 当 已 经 化 *define 段 由 被 定义 
合法 ， 一 个 词法 记号 ， 没有 警告 
相仿 法 ， 没 有 结束 的 尖 插 号 
不 合法 ， 没 有 结束 的 类 括号 
同上 ，(> 后 面 必须 跟随 空格 ) 


图 C-1 LLGen 词 法 记号 的 示例 


*productions *end 


$$$ 


行 结束 符 作为 如 下 所 述 的 终结 符 规范 、 产 生 式 和 常量 定义 的 结束 符 是 必需 的 。 除 此 之 外 ，LLGen 的 输入 


是 自由 格式 的 。 


在 *fmq 之 前 或 *end 之 后 的 任何 东西 都 将 被 认为 是 注释 并 被 忽略 。 然 而 ， 注 释 不 能 包含 上 述 任意 被 
保留 的 词法 记号 。 跟 随 在 *fmq 后 面 的 是 零 个 或 多 个 选项 的 列表 ， 和 通常 一 样 以 空白 、 制 表 符 或 行 结束 符 
分 隔 。 所 有 选项 都 具有 开关 的 形式 并 可 通过 在 选项 列表 中 包含 其 名 字 而 激活 。 一 个 被 激活 的 选项 可 以 通 
过 在 其 名 字 前 放置 no 而 被 禁止 (no 与 选项 名 之 间 没 有 空格 ) ; 因此 ， 为 阻止 分 析 表 的 构造 ， 可 使 用 
noparsetable。 除 了 用 于 checkreduce 和 text 的 选项 之 外 的 所 有 选项 在 初始 时 都 是 被 禁止 的 。 大 写 
和 小 写 的 选项 都 能 被 识别 。 可 用 的 选项 有 


(1) bnf 

打印 文法 规则 。 

(2) first 

打印 所 有 非 终 结 符 的 First 集 。 
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(3) follow 

打印 所 有 非 终结 符 的 FoLllow 集 。 

(4) parsetable 

以 表格 形式 打印 分 析 动 作 表 。 表 中 的 数字 指示 对 产生 式 的 预测 ; 空白 条 目 指示 错误 。 该 表 可 能 相 
当 大 。 

(5) checkreduce ` 

检查 文法 是 否 可 归 约 ; 报告 所 有 不 能 产生 终结 符 申 的 符号 以 及 那些 从 开始 符号 无 法 到 达 的 符号 。 如 
果 文 法 不 可 归 约 ， Hest 了 checkreduce ， 则 不 会 生成 表格 。checkrequce 通 常 是 被 激活 的 。 


(6) resolve 


如 果 给 定 的 文法 不 是 LL(1) 的 ， 仍 然 会 生成 分 析 表 ， 并 通过 优先 选择 较 早 出 现在 输入 中 的 产生 式 来 


逐 对 解决 分 析 冲 突 。 该 选项 应 当 谨 慎 使 用 ; 见 “LLGen 中 的 错误 处 理 ” 一 节 的 讨论 。 如 果 resolve 被 禁 
止 ， 购 在 存在 分 析 溃 突 的 情况 下 将 停止 计算 分 析 表 。 

(7) shortline, longline 

控制 易 被 人 阅读 的 输出 (vocab、parsetable 等 ) 中 打印 行 的 长 度 。shortline 导 致 每 行 少 于 80 
个 字符 (适合 屏幕 显示 ), 而 longline 是 132 个 字符 (适合 打印 机 )。shortiline 和 nolongline 是 同 义 
语 ， 反 之 亦 然 。 软 认 选 项 是 short1line。 

(8) statistics 

打印 文法 的 分 类 统计 信息 。 

(9) vocab 

打印 给 定语 言 的 符号 。 

(10) text, binary 

由 LLGen 所 创建 的 表 可 以 被 写成 文本 形式 (字符 文件 )、 二 进 制 形式 (整数 文件 ) 或 同时 写成 这 两 
种 形式 。 文 本 输出 被 写 到 文件 ptableout; 二 进 制 输出 被 写 到 Ptablebin。 二 进 制 文件 往往 更 大 一 些 
至 少 在 32 位 机 器 上 要 大 一 些 (在 VAX 机 器 UNIX" 操 作 系 统 下 大 约 大 30%)， 但 它们 通常 读 起 来 更 快 。 软 
认 选 项 是 text 和 nobinary 。 

常量 定义 段 是 可 选 的 。 如 果 存 在 ， 则 以 保留 的 词法 记号 *dQefine 开 始 ， 由 一 系列 定义 组 成， 每 条 定 
义 都 处 在 单独 一 行 中 。 每 条 定义 的 形式 为 


<const name> <integer value> 


其 中 <const name> 是 上 述 的 一 个 词法 记号 ， 而 <integer value> 是 一 个 无 符号 整数 〈 即 仅 含 数字 的 词法 
记号 )。 该 常量 可 以 随后 用 于 任何 需要 整数 的 地 方 : 在 后 续 常 量 定 义 中 ， 以 及 用 作 语 义 例 程 编号 。 注 意 : 
该 特性 并 不 像 它 最 初 看 起 来 那么 好 ， 因 为 LLGen 的 输出 列表 将 使 用 数字 值 ， 而 不 是 常量 名 。 

保留 的 词法 记号 "terminals 开 始终 结 符号 如 认 ， 终结 符 规范 段 由 一 系列 这 样 的 规范 组 成 : 每 条 规 
范 处 于 单独 一 行 中 。 所 有 终结 符 都 必须 出 现在 该 列表 中 。 

WEB productions? RE GER PRO. 产生 式 由 一 一 列 规则 指定 ， 每 条 规则 处 于 单独 一 
行 中 。 

产生 式 规范 的 形式 为 

«Ihs» ::= <rhs> 


<lhs> 或 <rhs> 都 可 以 被 省 略 。<ihs> 是 表示 非 终 结 符号 的 词法 记号 。 如 果 没 有 <lhs> ， 则 使 用 前 面 一 条 产 
后 式 的 <jhs>。<rhs> 是 词法 记号 种， 其 中 包含 产生 式 的 文法 符号 以 及 指示 当 到 达 产 生 式 的 适当 点 时 将 被 
调用 的 语义 例 程 的 动作 符号 。 动 作 符 号 由 # 后 面 跟随 一 个 无 符号 整数 或 已 定义 常量 组 成 ， 其 间 没 有 空白 。 


770 





772 


496 | HAC 


如 果 没 有 <rhs> 或 其 中 只 含有 动作 符号 ， 则 <ihs> 推 出 空 串 。 可 以 通过 以 保留 的 词法 记号 “". . ."” 开 始 
一 行使 <Ihs> 在 那些 后 续 的 行 中 继续 ( 仅 有 产生 式 可 以 这 样 续 行 )。 

产生 式 以 x*end 终 止 。 在 所 有 产生 式 都 被 处 理 之 后 将 添加 拓 广 产生 式 。 两 个 符号 <Goal> 和 $$$ 以 及 
一 个 产生 式 


<Goal> ::= <S> $$$ 


被 添加 到 文法 中 ， 其 中 <S> 是 指定 的 第 一 个 产生 式 左边 的 符号 ，<Goal> 是 开始 符号 ， 而 $$$ 是 结束 标记 。 
C.2 LLGen 的 输出 


由 上 述 选 项 控制 的 输出 被 写 到 标准 Pascal 文 件 output 中 。 此 外 ， 包 含 分 析 表 的 文件 也 将 被 创建 。 分 
析 表 被 写 到 ptableout (文本 格式 ) 或 ptablebin (二 进 制 格 式 ) 中 。 这 些 文件 可 以 被 指定 或 重 定 问 ， 
具体 情况 要 依 操作 系统 而 定 。 

不 论 输出 文件 被 创建 为 text 文 件 还 是 binary 文 件 , 输出 文件 的 形式 都 是 相同 的 。 在 binary 文 件 中 ， 
字符 值 被 写成 该 字符 的 ord (序号 )。 : 

文件 ptableout 和 ptablebin 包 含 下 列表 : 所 有 产生 式 的 右 部 、 语 法 分 析 器 动作 表 、 能 够 推出 空 
串 的 符号 列表 以 及 文法 中 所 有 符号 的 符号 化 表示 。 

文件 格式 如 下 所 示 : 

标题 行 : | 

第 一 行 给 出 各 个 表 的 大 小 。 它 包含 语言 中 终结 符 的 数目 (numterms)、 文 法 符号 的 数 晶 
(numsymbols)、 文 法 中 产生 式 的 数目 (numprods )、 符 号 映像 的 字符 串 大 小 (stringsize ) 以 及 一 个 指 
示 是 否 产 生 了 错误 修复 表 的 标志 。 如 果 创 建 了 修复 表 ， 则 该 标志 为 字符 T， 否 则 为 字符 F。 

产生 式 : 

给 出 所 有 产生 式 的 右 部 ; 所 有 右 部 都 是 送 序 存放 的 ， 并 能 够 以 那个 给 定 的 硕 序 压 信 分析 栈 。 每 个 产 
生 式 由 一 个 长 度 以 及 后 面 跟随 的 相应 符号 的 编号 组 成 。 动 作 符号 包含 在 产生 式 右 部 ， 并 编码 为 文法 中 给 
定编 号 的 相反 数 。 | 

SHAR: 

对 每 个 非 终结 符 号 的 LL(1) 预 测 由 分 析 表 给 出 。 对 每 个 非 终结 符 的 预测 被 存储 在 一 个 整数 对 列表 中 。 
列表 中 的 第 一 个 整数 对 是 一 个 零 以 及 后 面 跟随 的 非 终结 符 的 编号 。 后 续 的 整数 对 的 形式 为 

terminal prediction | 
其 中 prediction 是 当 terminal 出 现在 超前 搜索 符号 中 时 预测 的 产生 式 。 该 列表 在 下 一 个 列表 的 开始 处 终止 。 
整个 分 析 表 以 0 0 终止。 

lambda 产 生 式 : 

Lambda 产 生 式 是 那些 右 部 没有 ( 除 动作 符号 外 的 ) 符号 的 产生 式 。 该 列表 由 一 个 长 度 n 以 及 后 面 跟 
随 的 n 个 代表 产生 式 编号 的 整数 表示 。( 访 表 对 普通 的 LL(1) 分 析 器 是 不 必要 的 ， 但 它 对 于 完成 错误 修复 
时 避免 不 必要 的 分 析 器 动作 是 有 用 的 。) 

字符 串 表 : 

符号 表 信 息 有 两 种 形式 。 第 一 种 是 索引 ， 由 numsymbols 个 整数 对 组 成 。 每 对 中 第 一 个 整数 是 字符 
串 中 符号 的 开始 点 ， 第 二 个 整数 是 符号 的 长 度 。 跟 随 在 索引 后 面 的 是 stringsize 个 字符 ， 每 行 132 个 。 


C.3 LLGen 中 的 错误 处 理 
LLGen 输 入 中 的 语法 错误 将 由 错误 恢复 例 程 处 理 。 如 果 在 输入 中 存在 错误 ， 表 生成 将 被 中 止 。 
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试图 使 用 符号 <Goal> 和 $$$ (开始 符号 和 结束 标记 ) 将 被 视 为 语法 错误 。 

所 有 终结 符 必 须 被 列 在 *terminals 段 。 如 果 任 何 终结 符 没 有 被 列 出 或 一 个 非 终结 符 设 有 出 现在 任 
何 产生 式 的 左 部 ， 则 该 符号 会 被 标记 ， 且 不 会 生成 任何 表 。 类 似 地 ， 被 声明 为 终结 符 的 符号 不 能 出 现在 
产生 式 左 部 。 

如 果 所 指定 的 文法 不 是 LL(D 的 ， 那 么 将 报告 所 有 的 冲突 。 如 果 选 项 resolve 被 激活 ， 将 按 产 生 却 
的 出 现 次 序 确定 它们 的 优先 级 〈 第 一 条 指定 的 产生 式 有 最 高 的 优先 级 )。 因 此 Pascal 和 其 他 语言 中 的 悬空 
else 可 以 通过 

<if stmt> ::= if <expr> then «stmt» «else part» 


«else part» ::= else «stmt» 


进行 分 析 。 冲 突 将 通过 优先 选择 第 一 种 形式 的 语句 来 解决 ， 即 把 else 与 最 近 出 现 的 1£ 相 匹配 。 

该 解决 机 制 应 当 谨 慎 使 用 。 必 须 仔 细 地 检查 冲突 以 保证 所 采取 的 分 析 动 作 是 所 希望 的 动作 。 例 如 ， 
将 上 述 两 条 <else part> 产 生 式 的 顺序 颠倒 也 会 很 好 地 被 LLGen 所 接受 ， 但 会 产生 灾难 性 的 后 果 。 当 
else 出 现在 超前 搜索 符号 中 时 ， 所 采取 的 分 析 动作 将 总 是 预测 <else part> 推 导出 空 趾 ，else 将 永远 
不 会 被 接受 。 

如 果 指 定 的 文法 被 证 明 对 于 LLGen 的 限制 来 说 太 大 了 ， 则 程序 将 会 打印 一 条 信息 来 描述 所 越过 的 限 
制 且 程 序 将 会 终止 。LLGen 必 须 随后 用 增加 的 限制 被 重新 编译 。 通 常 ， 超 过 一 个 限制 意味 着 其 他 限制 也 
会 被 突破 ， 一 次 增加 所 有 的 限制 将 会 节省 重新 编译 的 时 间 。 注 意 : LLGen 按 顺序 处 理 终结 符 、 产 生 式 和 
分 析 表 。 因 此 ， 如 果 报 告 文法 中 产生 式 的 数量 超过 了 限制 ， 则 终结 符 的 数量 必定 在 限制 之 内 ， 因 为 它们 
已 被 完全 处 理 了 。 特 定 文法 的 某 些 方面 的 问题 较 容易 被 发 现 ; 而 其 他 的 问题 则 必须 通过 经 验 和 试验 来 处 
理 。 容 易 确定 的 是 终结 符 数目 、 符 号 数目 (terminals+nonterminals) 和 产生 式 数 目 。 不 容易 确定 但 容 
易 估算 的 是 产生 式 中 的 符号 总 数 和 所 有 不 同 符号 中 的 字符 总 数 。 


C.4 使 用 LLGen 


文法 规范 被 从 标准 输入 文件 中 读 入 ， 而 易 被 人 阅读 的 输出 则 被 写 到 标准 输出 中 。 产 生 的 分 析 表 被 写 
到 ptableout 或 ptablebin 中 。 上 述 名 字 是 在 程序 头 文件 中 声明 的 内 部 名 字 ， 并 且 可 以 由 运行 程序 的 系 
统 环境 来 修改 。 

图 C-2 给 出 LLGen 的 一 个 输入 规范 示例 ;图 C-3 给 出 将 会 生成 的 ptableout 文 件 。 


Grammar for DCL, a desk calculator language 


(the action symbols here don’t mean anything, 
they just illustrate how they might be used) 


*fmq 
statistics 
checkreduce 


vocab bnf 


text binary 
*terminals — 
id 





图 C-2 LLGen 输 入 示例 
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write 
read 


f 


*productions 


«prog» 
«st list» 


«st list tail» 


«st list» end 
«st» #1 «st list tail» 
P «st list» 


id 42 := <expr> #5 
read #3 ( <id list> #6 #14 ) 
write #4 ( <expr list> #6 ) 


<st> 


«term» «e tail» 
+ «term» #20 «e tail» 
一 «term» #20 «e tail» 


«primary» «t tail» | 
* «primary» #21 «t tail» 


/ «primary» #21 «t tail» 


<expr> 
<e tail> 
<e tail> 


<term 
<t tail> 
«t tail» 


— «primary» #7 

( <expr> ) 

id #8 

constant #9 

<expr> #30 <e list tail> 
, “expr list» 


<primary> 
<primary> 


<expr list> 
<e list tail> 


id #15 <id list tail> 
, «id list» 


«id list» 
«id list tail» 


LE aa a 
" + an + +. t+ ae et bb oe ir +. sa ++ aa on et oe »» LE] [EE +. LI 
N WM H HM Ho id H H MON OM M HW HM ON HON ON 


*end 
图 C-2 (£&) 
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图 C-3 给 定 图 C-2 的 输入 文件 ， 由 LLGen 产 生 的 ptableout 
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附录 D LALRGen 用 户 手 册 


LALRGen 接 受 上 下 文 无 关 文法 规范 并 产生 用 于 分 析 指 定语 言 的 表格 。 它 能 对 任意 LALR(1) 文 法 产 
生 表 格 ， 并 对 非 LALR(1) 文 法 提供 简单 的 冲突 解决 机 制 。LALRGen 是 ECP 的 一 个 子 集 ， 是 一 个 LALR(1) 
分 析 器 /错误 修正 器 的 生成 器 。ECP 由 Jon Mauney 编 写 。 

该 报告 描述 了 一 个 语言 翻译 工具 一 一 具体 说 ， 就 是 用 于 分 析 上 下 文 无 关 语 言 的 工具 。LALRGen 是 
一 个 表 生 成 器 。 它 接受 以 下 面 描述 的 格式 所 指定 的 LALR(1) 文 法 并 产生 可 用 于 语法 分 析 的 表格 。 通 过 语 
义 动 作 编号 ，LALRGen 也 提供 一 个 和 用 户 提供 的 语义 动作 的 接口 。 这 些 编号 在 LALRGen 的 输入 中 指定 
并 出 现在 所 产生 的 表格 中 。 

LALRGen 的 一 个 典型 使 用 过 程 如 下 : 

(1) 创建 一 个 能 够 指定 所 要 文法 的 文件 。 | 

(2) 运行 LALRGen， 将 文法 文件 定向 到 标准 输入 。LALRGen 将 把 可 选 的 输出 和 出 错 信息 《如 果 有 
的 话 ) 发 送 到 终端 (或 任何 形式 的 标准 输出 ) 并 创建 一 个 文件 ptableout 或 ptablebin ( 见 下 面 D.2 
节 )。 

(3) 如 果 文 法 不 能 被 LALRGen 接 受 ， 重 复 1 和 2。 

(4) 在 LALR(1) 分 析 器 驱动 程序 中 使 用 ptableout 或 ptablebin。 


D.1 LALRGen 的 输入 


LALRGen 的 输入 主要 有 3 段 : 运行 所 需 的 选项 、 文 法 的 终结 符号 以 及 文法 的 产生 式 规则 。 输 入 的 一 
般 形 式 为 : 


«commenis» 
+e 

<options> 
*define 

«constant definitions» 
*terminals 

«terminal specifications? 
*productions 

«production specifications» 
*end 

«comments» 


示例 见 图 D-2。 

在 下 面 的 叙述 中 ， 符 号 是 指 要 生成 表格 的 文法 中 的 符号 ， 而 词法 记号 是 指 LALRGen 的 输入 中 的 实体 。 

通过 三 个 简单 规则 ， 可 以 将 LALRGen 的 输入 划分 为 若干 个 词法 记号 : 

。 所 有 词法 记号 必须 由 一 个 或 多 个 空白 、 制 表 符 或 行 结束 符 分 隔 。 

。 词法 记号 不 能 包含 空白 或 制 表 符 ， 除非 该 词法 记号 被 置 于 尖 括 号 < 和 > 中 。 词法 记号 不 能 跨越 行 

边界 。 

。 如果 一 个 词法 记号 以 < 开始 ， 则 它 必 须 以 > 结束 。 

也 就 是 说 ， 输 入 中 的 任何 东西 一 选项 名 、 保 留 字 、 文 法 符号 一 一 都 必须 由 空白 符 分 隔 。 在 一 个 
符号 中 含有 空白 符 时 可 以 使 用 尖 括 号 ， 但 仅 当 第 一 个 字符 是 < 的 情况 下 它们 才 有 特殊 意义 。 出 现在 其 他 
任何 环境 中 的 尖 括 号 是 合法 的 但 没有 特殊 含义 《在 这 种 情况 下 将 给 出 一 条 警告 )。 
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大 写 和 小 写字 母 被 认为 是 不 同 的 ， 然 而， 被 保留 的 词法 记号 和 选项 无 论 大 写 、 小 写 或 大 小 写 混合 都 
能 被 识别 。 图 D-1 中 给 出 的 示例 说 明了 上 述 规则 。 










注释 
OK 
abc OK ， 与 ABC 不 同 。 










< Expr > 


<id list> 





， 得 到 一 条 警告 














一 > 合法 ， 得 到 一 条 警告 

<not<>equal> 合法 ， 得 到 一 条 警告 

much<<lessthan 合法 ， 得 到 一 条 警告 | 

<LHS> : :=<RHS> 合法 ， 得 到 一 条 警告 。 这 是 一 个 词法 记号 ， 而 不 是 三 个 。 

2<two tokens> 合法 ， 两 个 词法 记号 ， 两 条 警告 
(< 仅 当 它 首先 出 现时 才 是 特殊 的 ) 

*ecp 保留 

*ECP 保留 ， 与 *ecp 相 同 

*ECp 保留 ， 与 *ecp 相 同 

<= 不 合法 ， 没 有 结束 的 尖 插 号 

< 不 合法 ， 没 有 结束 的 尖 插 号 

<bad>token 同 土 ，(> 后 面 必 须 跟 随 空格 ) 


图 D-1 LALRGen 词 法 记号 的 示例 


下 列 词法 记号 是 被 保留 的 : 
*ecp  *define  *terminals  *productions tend ## 
= 一 一 <Goal> $$$ 


行 结 束 符 作为 如 下 所 述 的 终结 符 规 范 、 产 生 式 和 常量 定义 的 结束 符 是 必需 的 。 除 此 之 外 ， 
LALRGen 的 输入 是 自由 格式 的 。 

在 *ecp 之 前 或 *end 之 后 的 任何 东西 都 将 被 认为 是 注释 并 被 忽略 。 然 而 ， 注 释 不 能 包含 上 述 任意 被 
保留 的 词法 记号 。 注 释 也 可 以 被 放 在 任意 行 的 尾部 ;在 记号 一 一 到 行 尾 之 间 的 所 有 文本 都 将 被 忽略 。 

跟随 在 *ecp 后 面 的 是 零 个 或 多 个 选项 的 列表 ， 以 空白 、 制 表 符 或 行 结束 符 分 隔 。 所 有 选项 都 具有 
开关 的 形式 并 通过 在 选项 列表 中 包含 其 名 字 而 被 激活 。 一 个 被 激活 的 选项 可 以 通过 在 其 名 字 前 放置 no 被 
it (no 与 选项 名 之 间 没 有 空格 ) ; 因此 ， 为 阻止 构造 分 析 表 ， 可 使 用 noparsetable。 除 了 用 于 
_eheckreduce 和 text 的 选项 之 外 的 所 有 选项 在 初始 时 都 是 被 禁止 的 。 注 意 : 对 于 真正 程序 设计 语言 的 
文法 大 小 来 说 ， 大 多 数 输出 选项 都 会 创建 大 量 输 出 。 在 每 个 输出 选项 后 面 括号 中 的 数字 给 出 了 所 打印 的 
行 数 的 数量 级 ， 以 及 对 于 拥有 69 个 终结 符 、258 个 产生 式 和 226 个 状态 的 Pascal 文 法 所 打印 的 实际 行 数 。 
大 写 或 小 写 的 选项 都 能 被 识别 。 可 用 的 选项 有 

(1) bnf 

打印 文法 规则 。( 产 生 式 的 数目 ，Pascal = 258) 
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(2) cfsm 


打印 带 有 LALR(1) 超 前 搜索 符号 集 的 文法 的 特征 化 有 限 状 态 机 。( 项 的 数目 ，Pascal = 2893) 

(3) links 

如 果 1inks 和 cfsm 都 被 激活 ， 则 对 一 个 状态 中 的 每 一 项 ， 列 出 其 后 继 项 。( 项 的 数 自 ，Pascal = 
5809 + cfsm 的 大 小 ) | 

(4) first 

打印 所 有 非 终 结 符 的 First 集 。( 非 终结 符 的 数目 ，Pascal = 175) 

(5) parsetable 

以 表格 形式 打印 分 析 动 作 表 。 在 分 析 表 中 ， 未 标记 的 条 目 表示 到 给 定 状态 的 转换 。 标 记 为 的 条 目 
表示 由 给 定编 号 的 产生 式 所 进行 的 超前 归 约 ， 标 记 为 R 的 条 目 表示 简单 归 约 。 空 白条 目 指示 错误 。( 状态 
数 乘 以 终结 符 数 目 ，Pascal = 1855) 

(6) checkreduce 

检查 文法 是 否 可 归 约 ; 报告 所 有 不 能 产生 终结 符 串 的 符号 以 及 那些 从 开始 符号 无 法 到 达 的 符号 。 如 
果 文 法 不 可 归 约 ， 且 激活 了 checkreduce ， 则 不 会 生成 表格 。checkreduce 通 常 是 被 激活 的 。 

(7) resolve 

如 果 给 定 的 文法 不 是 LALR(1) 的 ， 仍 然 会 生成 分 析 表 ， 并 通过 优先 选择 较 早出 现在 输入 中 的 产生 式 
来 逐 对 解决 分 析 冲 突 。 该 选项 应 当 谨 慎 使 用 ; 见 “LALRGen 中 的 错误 处 理 ” 一 节 的 讨论 。 如 末 
resolve 被 禁止 ， 则 在 存在 分 析 冲 突 的 情况 下 将 停止 计算 分 析 表 。 

(8) shortline, longline | 

控制 易 被 人 阅读 的 输出 (vocab. cfsm. parsetable#) 中 打印 行 的 长 度 。 shortline 导 致 每 行 
少 于 80 个 字符 (适合 屏幕 显示 )， 而 longline 是 132 个 字符 (适合 打印 机 )。 shortline 和 nolongline 
是 同 义 语 ， 反 之 亦 然 。 软 认 选 项 是 short1ine。 | 

(9) statistics 

打印 文法 的 分 类 统计 信息 。 对 于 所 有 的 运行 ， 报 告 产 生 式 、 符 号 和 状态 的 数目 。 如 采 statistics 
被 激活 ， 像 基本 项 的 平均 数目 、 闭 包 图 路 径 长 度 以 及 执行 时 间 等 额外 信息 将 被 打印 。( 常数 ， 25) 

(10) vocab 

打印 语言 的 符号 。( 符号 数目 ，Pascal = 124) 

(11) text, binary 

由 LALRGen 所 创建 的 表 可 以 被 写成 文本 形式 (字符 文件 )、 二 进 制 形式 (整数 文件 ) 或 同时 写成 这 
两 种 形式 。 文本 输出 被 写 到 文件 ptableout; 二 进 制 输出 被 写 到 ptablebin。 二进制 文件 往往 更 大 一 些 ， 
至 少 在 32 位 机 器 上 要 大 一 些 (在 VAX 机 器 UNIX" 操 作 系 统 下 大 约 大 30%)， 但 它们 通常 读 起 来 更 快 。 上 默 
认 选 项 是 text 和 mobinary。 

常量 定义 段 是 可 选 的。 如 果 存在 ， 则 以 被 保留 的 词法 记号 *define 开 始 ， 由 一 系列 定义 组 成 ， 每 条 
定义 都 处 在 单独 一 行 中 。 每 条 定义 的 形式 为 

<const name> <integer value> 
其 中 <const name> 是 上 述 的 一 个 词法 记号 ， 而 <integer value> 是 一 个 无 符号 整数 〈 即 仅 含 数字 的 词法 
记号 )。 该 常量 可 以 随后 用 于 任何 需要 整数 的 地 方 :在 后 续 常量 定义 中 ， 以 及 用 作 语 义 例 程 编号 。 注 意 : 
该 特性 并 不 像 它 最 初 看 起 来 那么 好 ， 因 为 LALRGen 的 输出 列表 将 使 用 数字 值 ， 而 不 是 常量 名 。 

被 保留 的 词法 记号 *terminals 开 始终 结 符号 列表 。 终 结 符 规范 段 由 一 系列 这 样 的 规范 组 成 ， 每 条 
规范 处 于 单独 一 行 中 。 所 有 终结 符 都 必须 出 现在 该 列表 中 。 
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词法 记号 *productions 将 产生 式 和 终结 符 分 隔 开 。 产 生 式 由 一 列 规则 指定 ， 每 条 规则 处 于 单独 一 
行 中 。 
产生 式 规范 的 形式 为 
«Ihs» ::= <rhs> «semantic routine #> 
<ihs>、<rhs> 和 <semantic routine 办 中 的 任何 一 个 都 可 以 被 省 略 。<lhs> 是 表示 非 终结 符号 的 一 个 词 
法 记号 。 如 果 没 有 <ihs> ， 则 使 用 前 面 一 条 产生 式 的 <ihs>。<rhs> 是 词法 记号 串 ， 表 示 以 空白 隔 开 的 文 
法 符号 。 如 果 没 有 <rhs> 或 其 中 只 含有 动作 符号 ， 则 <lhs> 推 出 空 利 。 可 以 通过 以 被 保留 的 词法 记号 “.…… 
开始 一 行使 <lhs> 在 那些 后 续 的 行 中 继续 〈 仅 有 产生 式 可 以 这 样 续 行 )。 

«semantic routine 加 的 形式 为 

it «number» 


并 且 指 定 在 识别 该 产生 式 时 将 被 调用 的 语义 例 程 。<number> 是 一 个 无 符号 整数 或 者 预定 义 常 量 。 
如 果 没 有 <number>， 将 使 用 零 。 

产生 式 以 *end 终 止 。 在 所 有 产生 式 都 被 处 理 之 后 添加 拓 广 产生 式 。 两 个 符号 <Goal> 和 $$$ 以 及 一 
个 产生 式 

«Goal» ::= «S» $$$ 

被 添加 到 文法 中 ， 其 中 <S> 是 指定 的 第 一 个 产生 式 左 部 的 符号 ，<Goal> 是 开始 符号 ，$$$ 是 结束 
标记 。 


D.2 LALRGen 的 输出 


由 上 述 选 项 控制 的 输出 被 写 到 标准 Pascal 文 件 output 中 。 此 外 ， 包 含 分 析 表 的 文件 也 被 创建 。 分 
析 表 被 写 到 ptableout (文本 格式 ) 或 ptablebin (二 进 制 格式 ) 中 。 这 些 文件 可 以 被 指定 或 重 定向 ， 
具体 情况 要 依 操 作 系 统 而 定 。 

不 论 输出 文件 被 创建 为 text 文 件 还 是 binary 文 件 , 输出 文件 的 形式 都 是 相同 的 。 在 binary 文 件 中 ， 
字符 值 被 写成 该 字符 的 ord (FF). 

文件 ptableout 和 ptablebin 包 含 下 列表 : 编码 的 分 析 动 作 表 、 产 生 式 右 部 的 长 度 、 产 生 式 的 左 
部 符号 、 与 产生 式 关联 的 语义 例 程 编号 、 给 出 文法 符号 字符 串 表 示 的 符号 表 以 及 CFSM 中 每 个 状态 的 条 
目 符号 。 文 法 符号 被 编码 为 整数 。 终 结 符 以 其 在 终结 符 规 范 段 所 列 出 的 顺序 从 1 开始 编号 。 结 束 标记 $$$ 
是 编号 最 高 的 终结 符 。 非 终结 符 以 其 在 文法 中 出 现 的 顺序 来 编号 ， 从 结束 标记 编号 加 1 开始 。 有 具 标 符号 
<Goal> 是 拥有 最 高 编号 的 非 终结 符 。 文 件 格 式 如 下 所 示 。 

标题 行 : 

第 一 行 给 出 各 个 表 的 大 小 。 它 包含 CESM 的 状态 数 (numstates) 、 文 法 符号 的 数目 (numsymbols ). 
产生 式 的 数目 (numprods)、 符 号 表 的 字符 串 大 小 〈stringsize)、 分 析 表 中 非 错误 条 目 数 以 及 一 个 指示 
是 否 为 该 文法 创建 了 错误 修正 表 的 标志 (errortables )。 如 果 创 建 了 修正 表 ， 则 该 标志 为 字符 T， 否 则 为 
FFF. 

分 析 动 作 : 

每 个 状态 的 分 析 动 作 将 以 一 系列 符号 /动作 对 列表 的 形式 给 出 。 每 个 列表 以 零 / 状 态 数 的 整数 对 开 
头 ， 动 作 表 以 一 对 零 结 束 。 如 果 一 个 符号 没有 出 现在 针对 某 个 状态 的 列表 中 ， 则 针对 那个 状态 和 符号 的 
动作 是 出 错 动作 。 动 作 按 如 下 方式 编码 : 

n > 2000: 


通过 产生 式 p = n 一 2000 超 前 归 约 。 从 栈 中 弹出 rhsiength(p) 个 状态 但 不 消耗 当前 输入 符号 。 





LALRGen 用户 手册 503 


2000 > n > 1000: 

通过 产生 式 p = n 一 1000 简 单 归 约 。 当 前 符号 完成 产生 式 p。 弹 出 rhslength(p) 一 1 个 状态 并 消耗 当前 
输入 符号 。 | i 
1000 > n> 0: 


转换 到 状态 n。 将 n 压 人 栈 中 。 消 耗 当 前 输入 符号 。 

rhs 长 度 : 

跟随 在 动作 矩阵 后 面 的 是 numprods 个 整数 ， 指 示 相 应 产生 式 右 部 的 符号 数 。 
Ihs: 

接 下 来 是 numprods 个 整数 ， 给 出 每 条 产生 式 左 部 的 符号 。 

语义 编号 : 

numprods 个 整数 给 出 与 每 条 产生 式 相关 联 的 请 义 例 程 编 号 。 

FHARR: 


符号 表 信息 有 两 种 形式 。 第 一 种 是 索引 ， 由 numsymbols 个 整数 对 组 成 。 每 对 中 第 一 个 整数 是 字符 


串 中 符号 的 开始 点 ， 第 二 个 整数 是 符号 的 长 度 。 跟 随 在 索引 后 面 的 是 stringsize 个 字符 ,每 行 80 个 。 在 
二 进 制 形式 中 ， 每 个 字符 利用 ord (序号 ) 被 写成 一 个 字 。 

条 目 符 号 : 

最 后 ， 有 numstates 个 整数 ， 给 出 进入 每 个 状态 时 所 移 进 的 符号 。 


D.3 LALRGen 中 的 错误 处 理 


LALRGen 输 入 中 的 语法 错误 将 由 错误 恢复 例 程 处 理 。 如 果 在 输入 中 存在 错误 ， 表 生 成 将 被 中 止 。 

试图 使 用 符号 <Goal> 和 $$$ (开始 符号 和 结束 标记 ) 将 被 视 为 语法 错误 。 

所 有 终结 符 必 须 被 列 在 *terminals 段 。 如 果 任 何 终结 吉 符 没有 被 列 出 或 一 个 非 终 结 符 没 有 出 现在 任 
何 产 生 式 的 左边 ， 则 该 符号 会 被 标记 ， 且 不 会 生成 任何 表格 。 类 似 地 ， 被 声明 为 终结 符 的 符号 不 能 出 现 
在 产生 式 左 部 。 

如 果 所 指定 的 文法 不 是 LALR(1) 的 ， 那 么 将 报告 所 有 的 冲突 。 如 果 选 项 resolve 被 激活 ， 将 按 产 生 
式 的 出 现 次 序 指定 它们 的 优先 级 (第 一 条 指定 的 产生 式 有 最 高 的 优先 级 )。 因 此 ， Pascal 和 其 他 语言 中 的 
悬空 else 可 以 通过 


«if stmt» ::= if <expr> then «stmt» else «stmt» 
: := if <expr> then «stmt» 


进行 分 析 。 

冲突 将 通过 优先 选择 第 一 种 形式 的 语句 来 解决 ， 即 把 else 与 最 近 出 现 的 if 相 匹配 。 有 相同 基本 产 
生 式 的 两 项 之 间 的 冲突 将 通过 优先 进行 归 约 来 解决 。 下 列 二 义 文法 可 以 用 于 分 析 包 含 + 和 id 的 表达 式 ， 
左 结合 被 强制 执行 ， 因 为 总 是 选择 归 约 而 不 是 移 进 。 


E -=E +B 
: :三 id 


该 解决 机 制 应 当 谨慎 使 用 。 必 须 仔 细 地 检查 冲突 以 保证 所 采取 的 分 析 动作 是 所 希望 的 动作 。 例 如 ， 
在 上 面 的 if 语 句 文法 中 , 交换 两 条 产生 式 的 顺序 对 于 生成 器 是 可 以 接受 的 ， 但 这 将 导致 归 约 优先 于 移 进 。 
这 将 对 分 析 产 生 灾 难 性 的 后 果 ， 因 为 else 将 永远 不 会 被 接受 。 | | 

如 果 指 定 的 文法 被 证 明 对 于 LALRGen 的 限制 来 说 太 大 了 ， 则 程序 将 会 打印 一 条 信 息 来 描述 所 超过 
的 限制 且 程 序 将 会 终止 。LALRGen 必 须 随后 用 增加 的 限制 被 重新 编译 。 通 常 ， 超过 一 个 限制 意味 着 其 
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他 限制 也 会 被 突破 ， 一 次 增加 所 有 的 限制 将 会 节省 重新 编译 的 时 间 。 注 意 : LALRGen 按 顺序 处 理 终 结 
符 、 产 生 式 和 分 析 表 。 因 此 ， 如 果 报 告 CFSM 中 的 状态 数 超过 了 限制 ,终结 符 的 数量 必定 还 在 限制 之 内 ， 
因为 它们 已 被 完全 处 理 了 。 特 定 文法 的 某 些 方面 的 问题 较 容 易 被 发 现 ， 而 其 他 的 问题 则 必须 通过 经 验 和 
试验 来 处 理 。 容 易 确 定 的 是 终结 符 数目 、 符 号 数 自 (terminals+nonterminals) 和 产生 式 数 目 。 不 容易 
确定 但 容易 估算 的 是 产生 式 中 的 符号 总 数 、 穿 过 闭 包 图 的 路 径 数 以 及 在 所 有 不 同 符号 中 的 字符 总 数 。 经 
验 表明 状态 数 = PERK, OF Pascal, WMA = 状态 数 的 12 倍 ( ~ 2500) ; 对 于 Pascal， 链 接 数 = 项 数 
的 2 倍 ( = 5000). 


D.4 使 用 LALRGen 


文法 规范 被 从 标准 输入 文件 中 读 入 ， 而 易于 阅读 的 输出 则 被 写 到 标准 输出 中 。 产 生 的 分 析 表 被 写 入 
ptableout 或 ptablebin 中 。 上 述 名 字 是 在 程序 头 文件 中 声明 的 内 部 名 字 ， 并 县 可 以 由 运行 程序 的 系统 
环境 来 修改 。 

图 D-2 给 出 LALRGen 的 一 个 输入 规范 示例 ; 图 D-3 给 出 将 会 生成 的 ptableout 文 件 。 


Grammar for DCL, a desk calculator language 


*ecp 
vocab bnf 
nobinary text  — only generate text files 
*define 
<do assn> 2 — semantic actions 
add 5 
subtract 6 
*terminals 
id 
constant 
end 
( 
) 
4 
+ 
/ 
write 
read 
*productions 
<prog> : := «st list» end 
<st list> ::= «st list» ; «st» 
: :三 «st» 
<st> : := id := <expr> ## «do assn> 
::= «read» ( «id list» ) ## 3 
: := «write» ( «expr list» ) ## 4 
<expr> ::- <expr> + «term» ## add 


;= <expr> - «term» 
. ## subtract 
::= «term» ## 7 
<term> : := <term> + «primary» #4 8 
::- «term» / «primary» ## 9 
::= <primary> ## 10 
<primary> : :二 — Xprimary» ## 11 
::- ( <expr> ) 


图 D-2 LALRGen 输 入 示例 
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id ## 1 
constant ## 12 
write ## 20 
read ## 21 
<id list> , id ## 23 
id ## 24 
<expr list> 
. 0, Xexpr» 
<expr> 


<write> 
<read> 
«id list» 


«expr list» 





图 D-2 (£x) 


27 26 24 180 126 F 

0 1 13 1019 12 1018 1 6 20 5 22 4 4 2007 3 2007 18 1003 17 3 
16202 15 102403 4 27 3 1001 0462205619 
065707911610 1 1016 2 1017 25 1013 24 919 808 8 
14 9 13 4 2004 3 

2004 0 9 10 17 11 16 14 2010 9 2010 

8 2010 7 2010 4 2010 3 2010 0 10 9 11 6 10 1 1016 2 1017 25 
1013 24 9 19 12 0 11 9 11 6 10 1 1016 2 1017 25 1014 O 12 8 14 
9 13 7 1015 0 13 9 11 6 10 1 1016 2 1017 25 1013 24 18 0 14 9 
11 6 10 1 1016 2 1017 25 1013 24 15 O 15 10 17 11 16 14 2008 
9 2008 8 2008 7 2008 4 2008 3 2008 0 16 9 11 6 10 1 1016 2 


1017 25 1012 0 17 9 11 6 10 1 1016 2 1017 25 1011 0 18 10 17 11 16 
14 2009 9 2009 8 2009 7 2009 4 2009 3 2009 0 19 1 1021 21 20 0 

20 14 21 7 1005 0 21 1 1020 0 22 9 11 6 10 1 1016 2 1017 25 1013 
24 9 19 24 23 23 0 23 14 25 7 1006 0 24 8 14 9 13 14 2023 7 2023 

0 25 9 11 6 10 1 1016 2 1017 25 1013 24 9 19 26 0 26 

B 14 9 13 14 2022 7 2022 0 27 13 1019 12 1018 1 6 205 22 4 4 2007 
3 2007 18 1002 
00231344033133 

1231111312312 16 17 17 18 18 18 18 19 19 19 24 24 24 25 
25 25 25 22 20 21 21 23 23 260 00 2 

3405678 9 10 11 0 1 12 20 21 23 24 0 0 -1 76 2 78 8 86 3 

89 1902921931941 95 196 1 

97 1 98 5 103 4 107 1 7 3 108 6 114 9 123 4 127 6 133 6 139 9 148 
7 155 11 166 6 1729 1 6 
«Goal»$$$grammarforDCL,DeskCalculatoroneitwo2three3«do assn»2add5 
subtract6idcon stantend; :-()4—*/writeread,«prog»«st list»«s 
t><expr><read><id list><write><expr list><term><primary> 


15 16 17 22 20 1 5 19 
24 6 9 19 9 8 24 11 10 24 6 21 14 6 23 19 14 19 4 





图 D-3 给 定 图 D-2 的 输入 文件 ， 由 LALRGen 产 生 的 ptableout 
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附录 E LLGen 和 LALRGen 错 误 修 复 特 性 


LLGen 和 LALRGen 不 仅 能 够 生成 分 析 表 ， 还 可 以 生成 错误 修复 表 。 该 文档 仅 描述 错误 修复 特性 。 
所 有 分 析 选 项 和 表 都 与 附录 C 和 附录 DD 中 所 描述 的 相同 。 

那些 编码 在 错误 修复 表 中 的 动作 由 所 指定 的 上 下 文 无 关 文 法 和 一 系列 修复 成 本 来 确定 。 你 必须 选择 
修复 成 本 ; 否则 会 应 用 一 个 默认 值 。 还 没有 任何 一 种 算法 能 用 于 选择 最 佳 的 成 本 集合 。 然 而， 这 里 有 一 
些 有 益 的 启发 : 开始 一 个 结构 的 符号 (如 if 或 begin ) 应 当 拥 有 相对 较 高 的 成 本 ， 因 为 插入 或 删除 这 样 
的 符号 会 导致 更 多 的 后 续 错误 。 结 束 结构 的 符号 (如 end 或 ) 可 以 有 较 低 的 成 本 。 非 常 低 的 成 本 可 以 被 
赋予 仅 在 有 限 上 下 文中 出 现 的 符号 ， 例 如 Pascal 中 的 “.…”。 以 LLGen 和 LALRGen 所 需 的 形式 列 出 的 
Ada/CS 修 复 成 本 表 见 图 E-1。 


*terminals 

<id> 

<numeric literal> 
<character string> 


«less than» 
> 


<less than or equal> 


NàU»bbàNAhàANPNUPMOARM WWH HE WENNNENNNNNONNEWWN NN 


4 
2 
5 
1 
1 
3 
1 
2 
2 
2 
2 
2 
2 
3 
1 
3 
3 . 
2 
2 
1 
1 
2 
1 
1 
3 
8 
4 
3 
5 
5 
3 
8 
8 
6 
8 
6 
8 
5 
5 
4 
6 
5 





图 E-1 Ada/CS 的 简单 修复 成 本 
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8 
4 
8 
6 
1 
5 
3 
3 
5 
5 
3 
6 
6 
4 
6 
5 
4 
5 
4 
8 
4 
5 
6 
5 
6 
6 
8 
8 





图 E-1  (£&) 


被 保留 的 词法 记号 *terminals 开 始终 结 符号 列表 以 及 其 相应 的 插入 和 删除 成 本 。 每 个 终结 符号 的 
规范 的 形式 为 | 
«terminal symbol» «insert cost» «delete cost 
其 中 <terminal symbol> 是 一 个 词法 记号 ， 而 <insert cost> 和 <delete cost> 是 无 符号 整数 或 已 定义 
7371 常量。 修复 成 本 是 用 户 提供 的 值 ， 用 于 控制 和 微调 修复 算法 的 动作 。 终结 符 规 范 段 由 一 系列 这 样 的 规范 
788| 组成， 每 条 规范 处 于 单独 一 行 中 。 所 有 终结 符 都 必须 出 现在 该 列表 中 。 


E.1 LL(1) 的 错误 修复 选项 和 输出 格式 


LLGen 生 成 可 用 于 FMQ 风 格 LL(1) 修 复 算法 ( 见 17.2.4 节 ~ 17.2.7 节 ) 的 表格 。 下 列 选 项 是 可 用 的 : 
errortables: 创建 FMQ 风 格 的 最 小 成 本 错误 修复 所 需 的 表 。 该 选项 通常 是 被 禁止 的 。 如 果 
| text BIA, ， 则 错误 修复 表 被 写 到 etableout 中 ; 如 果 binary 选 项 被 激 
活 ， 则 错误 修复 表 被 写 到 etablebin 中 。( 默 认 选 项 为 text nobinary.) 这 
些 文件 可 以 被 指定 或 重 定向 ， 具体 情况 要 依 操作 系统 而 是 。 | 
如 果 计 算 了 errortables， 可 以 利用 下 面 所 描述 的 选项 将 它们 打印 出 来 。 如 
果 已 经 计算 了 单独 的 表 ， 也 可 以 将 它们 打印 出 来 ， 因 此 下 列 选 项 需要 


errortables 被 微 活 。 
s: 打印 可 从 每 个 非 终 结 符 推导 出 的 最 小 成 本 字符 串 (SHE). 
e: 打印 用 于 从 非 终 结 符 推 导出 终结 符 的 最 小 成 本 前 级 〈《E 表 )。 该 表 通 党 相当 大 。 


所 有 FMQ 风 格 修复 算法 都 需要 S 表 。 该 表 足 够 小 ， 可 以 被 很 容易 地 存储 在 主 存 中 。 某 些 FEMQ 风 格 修 
复 算法 还 需要 E 表 。 该 表 则 可 能 相当 大 (对 于 Pascal， 大 约 有 40K 字 节 )。 因 为 对 于 任何 一 个 修复 而 言 ， 
仅 有 其 中 一 部 分 是 必需 的 ， 所 以 你 可 能 希望 将 它 放 在 一 个 文件 中 并 只 读 取 直 接 需要 的 那 部 分 。 
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如 果 已 创建 文件 etabLleout 和 etablebin， 则 它们 有 如 下 形式 : 


标题 : 


成 本 : 


SH: 
EX: 


一 行 ， 其 中 包含 3 个 整数 : 语言 中 的 终结 符 数 目 、 符 号 (终结 符 + 非 终结 符 ) 数 且 以 及 最 
大 修复 成 本 

所 有 终结 符号 的 插入 和 删除 成 本 

可 从 每 个 非 终结 符 推导 出 的 最 小 成 本 字符 串 〈S 表 ) 

从 每 个 非 终结 符 推导 出 每 个 终结 符 所 需 的 最 小 成 本 前 缀 (EX). MRE - ?不 包含 在 该 表 中 。 


错误 表 文 件 的 格式 总 结 于 下 表 中 。 在 此 表 中 ， 名 字 对 应 于 文件 中 的 整数 。(string) *<name> 意 指 把 
(string) 的 内 容重 复 <name> 次 。(string)* 意 指 该 字符 串 重复 未 知 次 数 〈( 该 列表 以 -1 终止 )。 “name:” 标 
记 文件 的 地 辑 部 分 而 不 实际 出 现在 文件 中 ， 表 的 注释 (不 出 现在 文件 中 ) 被 置 于 { 和} 中。 


标题 


成 本 : 


S 表 : 


E 表 : 


NumberOfTerminals NumberOfSymbols Infinity 
(InsertCost DeleteCost)«NumberOfTerminals 
(Cost Length (InsertSymbol)«Length 
或 -1{ 如 果 与 前 一 项 相同 ; 不 保证 进行 该 优化 } 

)*NumberOfNonterminals 
{其 中 NumberOfNonterminals = NumberOfSymbols— NumberOfTerminals} 
0 TerminalSymbo! 0 
(NonterminalSymbol Cost Length (InsertSymbol)*Length)* 

{其 中 上 面 的 重复 由 下 一 个 

0 TerminalSymbol 0 序列 或 

终结 序列 0 0 0 来 结束 7 
)*NumberOfTerminals 
000 


E.2 LALR(1) 的 错误 修复 选项 和 输出 格式 


LALRGen 生 成 可 以 和 基于 延 拓 的 LALR(1) 修 复 算 法 ( 见 17.2.10 节 - 172.1145) 一 同 使 用 的 表 。 下 
列 选项 是 可 用 的 : 
errortables: 创建 基于 延 拓 的 错误 修复 所 需 的 表 。 该 选项 通常 是 被 禁止 的 。 如 果 text 选 项 


cas 


被 激活 ， 则 错误 修复 表 被 写 到 etableout 中 ; 如 果 binary 选 项 被 激活 ， 则 错 
误 修 复 表 被 写 到 etablebin 中 。( 软 认 选 项 为 text nobinary.) 这 些 文件 
可 以 被 指定 或 重 定向 ， 有 具体 情况 依 操作 系统 而 定 。 

如 果 计 算 了 errortables， 可 以 利用 下 面 所 描述 的 选项 将 它们 打印 出 来 。 
如 果 已 经 计算 了 单独 的 表 ， 也 可 以 将 它们 打印 出 来 ,因此 下 列 选 项 需要 
errortables 被 激活 。 
打印 延 拓 动作 表 .。 


如 果 已 创建 文件 etableout 和 etablebin， 则 它们 有 如 下 形式 : 


标题 : 
成 本 : 
ca 表 : 


一 行 ， 其 中 包含 3 个 整数 : 语言 中 的 终结 符 数 目 、 CFSM 状 态 数 以 及 最 大 修复 成 本 
所 有 终结 符号 的 插入 和 删除 成 本 
相应 于 每 个 状态 的 延 拓 动作 


错误 表 文件 的 格式 总 结 于 下 表 中 。 记 号 m * [n] 意 指 一 列 包含 n 项 的 类 型 m 的 项 列表 。 


标题 : 


NumberOfTerminals NumberOfStates Infinity 
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成 本 : —(InsertCost DeleteCost) * [NumberOfTerminals] 

cam: ContinuationAction + [NumberOfStates] 

延 拓 动 作 表 中 的 条 目 按 如 下 方式 编码 。 令 ca = catable(state)。 如 果 ca 为 
1 .. NumberOfTerminals 一 一 插入 下 标 为 ca 的 终结 符号 

1000 < CA < 2000 一 一 用 产生 式 ca 一 1000 来 简单 归 约 

> 2000 一 一 用 产生 式 ca- 2000 来 超前 归 约 


WE 








附录 F 编译 器 开发 实用 工具 


许多 以 Pascal 语 言 编写 的 实用 工具 程序 可 用 于 辅助 编译 器 的 开发 和 调试 。 其 中 包括 一 个 双 偏 移 压缩 
例 程 和 一 个 目标 机 器 解释 器 。 可 用 的 例 程 还 有 : 执行 算术 运算 并 能 同时 捕捉 错误 (例如 溢出 ) 的 例 程 ， 
将 位 串 分 别 在 整数 和 实数 变量 之 间 进 行 转 换 并 绕 过 强 类 型 检查 的 例 程 ， 以 及 压缩 和 解压 缩 Ada/CS 机 器 指 
令 和 字符 串 的 例 程 。 | | 


F1 数组 压缩 工具 


ArrayComp 是 一 个 实用 工具 程序 ， 它 读 取 一 个 稀疏 矩阵 并 为 利用 双 偏 移 索 引 ( 见 17.1 节 ) 访问 它 而 
对 其 进行 压缩 。 它 可 以 用 于 在 由 ScanGen、LLGen 和 LALRGen 产 生词 法 分 析 表 和 语法 分 析 表 之 后 对 这 些 
表 进 行 压 缩 。 | 

从 标准 输入 文件 中 读 取 输入 。 所 读 的 数据 为 

N M Default 

InArray (元 素 为 行 主 序 ) | 
N 和 M 是 要 被 压缩 的 数组 的 边界 。 即 ，InArray 是 array(1..N; 1..M) of Integer. Defaut —4- 7053. € 
会 被 假定 为 压缩 表示 中 的 默认 值 。 为 使 这 个 压缩 有 效 ，InArray 的 大 多 数 元 素 必 须 为 默认 值 。 

压缩 形式 的 InArray 被 写 到 文件 outtable 中 。 所 写 的 数据 为 

N M Default CompressedLen 


Row (包含 N 个 值 ) | 
OutArray (包含 CompressedLen 个 条 目 ) 


压缩 表 以 如 下 形式 访问 : 
为 访问 InArray(i, j): 
if OutArray(Row()+2*i) = j 792 


then [nArray(i,j) = OutArray(Row(i)+2*i+1) 
eise InArray(i,j) = Default 


描述 数据 结构 大 小 和 所 获得 的 压缩 度 的 统计 数据 被 写 到 标准 输出 文件 中 。 


F2 Ada/CS 目 标 机 器 


Ada/CS 目 标 机 器 拥有 与 BM 360/370 系 列 类 似 的 简单 的 面向 寄存 器 的 体系 结构 。 为 该 机 器 生成 代码 
简化 了 编译 器 开发 ， 因 为 它 提供 了 一 个 带 有 调试 选项 的 解释 器 。 此 外 ， 用 于 编译 器 开发 的 实际 机 器 和 操 
作 系 统 的 细节 被 隐藏 起 来 ， 使 得 更 容易 利用 任何 可 用 的 机 普 。 | 

Ada/CS 目 标 机 器 有 若干 个 字数 的 存储 器 (依赖 于 所 购买 的 模型 )， 编 号 从 0 到 MaxAdr。 每 个 字 包 合 
32 位 。(Ada/CS 机 器 不 同 于 VAX、PDP-11 和 IBM 机 器 ， 这 些 机 器 都 是 每 字 节 单独 编 址 的 。) | 

有 64 个 寄存 器 ， 它 们 覆盖 了 主 存 的 前 64 个 字 (0-63): 寄存 器 i 存储 在 Memory 中 中 。 指令 是 32 位 长 ， 
其 形式 为 


操作 码 (Op Code ) WHE (Register) 基 址 (Base) 位 移 (Displacement) 
6 位 6 位 6 位 14 位 
一 条 指令 的 有 效 地 址 (EAdr) 定义 如 下 : 
EAdr = 
if Base = 0 then 
Displacement 
else | 


Displacement + Memory[Base] 
end 


Displacement 和 Base 是 指令 相应 域 的 内 容 。 我 们 遵循 IBM 360 的 约定 ，Base = 0 意味 着 不 使 用 基 


址 寄存 器 ， 而 不 是 指 基 址 寄存 器 0， 因 此 仅 有 寄存 器 1-63 可 以 用 作 基 址 寄存 器 。Displacement 被 视 为 有 
符号 的 14 位 量 ， 可 通过 最 左 端 一 位 的 复制 扩展 到 整 字 量 。 随 后 其 值 (用 2 的 补 码 算术 ) 与 指定 基 址 寄存 
as (如 果 有 的 话 ) 的 内 容 相 加 。 负 的 Displacement 是 合法 的 而 且 非 常 有 用 。 


我 们 将 令 R 代 表 Memory[Reg]， 这 是 由 指令 的 Reg 域 所 选择 的 寄存 器 的 内 容 ; 令 M 代 表 


Memory[EAdr]。 内 存单 元 中 最 右 端 的 位 是 最 低 有 效 位 ， 最 左 端 的 位 是 最 高 有 效 位 。 





我 们 使 用 下 列 数 据 格式 : 
整数 : 32 位 ，2 的 补 码 。 
实数 : 与 运行 Ada/CS 目 标 机 器 解释 器 的 机 器 上 32 位 实数 的 格式 相同 。 
布尔 数 : 存储 在 一 个 字 的 最 低位 《最 右 端 一 位 )。 
字符 : 单个 字符 ， 表 示 为 那些 运行 Ada/CS 目标 机 器 解释 器 的 机 器 所 使 用 的 字符 集 ， 存 放 在 一 
| 个 字 的 低 有 效 位 部 分 《最 右 病 )。 | 
FRAR: 一 个 (3242) 字 存 储 长 度 ， 后 面 跟随 字符 ， 每 四 个 压缩 在 一 个 字 中 ，( 在 字 内 ) WE 
同 右 存放 。 如 果 字 符 数 不 是 4 的 倍数 ， 则 最 后 一 个 字 内 右 部 以 零 填充 。 
下 列 机 器 操作 是 可 用 的 : 
操作 码 助 记 符 定义 
1 FIX 将 实数 转换 为 整数 : R := Integer(R) 
2 NEGI R := -R (整数 ) 
7 NEGR R := -R (实数 ) 
3 FLOAT 将 整数 转换 为 实数 : R := Float(R) (有 限 精度 ) 
4 NOTL if EAdr > 0 then 
取 愉 最 右边 EAdr 位 的 1 的 补 码 
else 
取 R 的 最 左边 Abs(EAdr) 位 的 1 的 补 码 
end if 
6 B PC := EAdr ( 跳 转 到 EAdr) 
8 BZ if R = 0 then PC := EAdr end if 
10 BNZ if R z 0 then PC := EAdr end if 
12 BGZI if R>0 (整数 ) then PC := EAdr end if 
13 BGZR if R50 (实数 ) then PC := EAdr end if 
14 BNGZI if R«0O (整数 ) then PC := EAdr end if 
15 BNGZR if R«0O (实数 ) then PC := EAdr end if 
16 BLZI if R «0 (整数 ) then PC := EAdr end if 


17 BLZR if R «0 (实数 ) then PC := EAdr end if 
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18 BNLZI if R20 (整数 ) then PC := EAdr end if 
19 BNLZR if R>0 (实数 ) then PC := EAdr end if 
20 BAL 转移 并 链接 : R := PC; PC := EAdr 
21 BKT 块 移 动 : 
R = 产地 址 
EAdr = 目标 地 址 
Memory[Reg + 1] = 移动 的 字数 
操作 数 从 左 问 石 处 理 
每 次 移动 一 个 字 
22 SVC 超级 用 户 调用 : 解释 器 返回 Result = EAdr. 


EAdr = 0 意味 着 停机 。 
23 TRNG 测试 区 间 ， 若 下 式 不 成 立 则 中 断 : 
Memory[EAdr] < R < Memory[EAdr + 1] 


24 SHL R := R 左 移 EAdr 位 (以 零 填充 ) 

26 SHR R := R 右 移 EAdr 位 (以 零 填充 ) 

28 LDA R := EAdr 

30 ST M:=R 

31 STPC M := PC 

32 LD R := M 

34 ADDI R:=R+M (SEX) 

35 ADDR R := R+M (实数 ) 

36 SUBI R:=R-M( 整 数 ) 

33 | SUBU R:R-M(&EXR) 
减法 是 不 进行 检查 的 ， 因 而 不 会 导致 溢出 异常 。 
在 所 有 情况 下 ， 结 果 的 符号 都 是 正确 和 的， 尽管 如 果 SUBI 产 生 溢出 ， 则 其 结 末 
将 会 不 正确 。 

37 ”SUBR R:=R-M (实数 ) 

38 MULI R:=R*M (整数 ) 

39 MULR R := R x M (实数 ) 

40 DIVI R := R /M (整数 ) 

41 DIVR R := R /M (实数 ) 

42 EXP R := R ** M (整数 ) 

43 EXPRE R := R **# M (实数 x BH) 

44 ANDL R := R and M (位 运算 ) 

46 ORL R := R or M (位 运算 ) 

48 BXOR R := R xor M (位 运算 ) 


输入 是 自由 格式 的 。 每 行 中 可 能 有 多 个 数据 项 。 无 效 项 将 产生 一 个 异常 。 有 下 列 输入 操作 可 用 : 
47 RDLN 跳 到 下 一 个 输入 行 的 开始 
49 RDCH 把 一 个 字符 读 到 M 中 〈M 的 其 余 位 被 清 零 ) 
50 RDL if 下 面 5 个 输入 字符 是 FALSE (忽略 大 小 写 ) 
then 将 M 的 最 右 一 位 清 零 - | 
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elsif 下 面 4 个 输入 字符 是 TRUE (忽略 大 小 写 ) 
then 置 M 的 最 右 一 位 为 1 
else 产生 一 个 无 效 输入 异种 


| end if 
51 RDR 将 一 个 实数 读 和 人 M 
52 RDI 将 一 个 整数 读 人 M 
53 RSTR 将 一 个 字符 串 读 和 人 M。 


该 字符 串 可 以 出 现在 输入 行 的 任何 位 置 。 
它 必 须 被 置 于 引号 (C) P. 


有 下 列 输出 操作 可 用 : 

54 WL if M 的 最 右 一 位 = 1 
then 打印 TRUE 
else 打印 FALSE 
end if 

55 WR UA SE Bere SFT EM 

56 WI 以 整数 格式 打印 M 


57 WRCH 以 字符 格式 打印 M 
5 WBITS 以 位 串 格式 打印 M 
58  WSTR 以 字符 串 格 式 打印 M 
如 果 必 要 ， 播 入 换行 符 。 
60 SKP if EAdr <0 then 
writeln 
elsif 0 < EAdr< 57 then 
跳 过 EAdr 行 — 
elsif 57 < EAdr then 
跳 到 新 的 一 页 
end if 
注意 : 
(1) WL、WR、WI 和 WRCH: 
如 果 Reg = 0， 那 么 使 用 默认 的 输出 格式 ， 否 则 ， 使 用 R 作 为 输出 域 的 最 小 宽度 (如 果 需 
要 ， 在 左边 填充 空白 符 )。 | 
(2) WL. WR. WI. WRCHZIWBITS: 
如 果 输 出 项 不 能 填 满 整个 当前 行 ， 则 跳 至 下 一 行 。 
(3) WSTR: 
if Reg = 0 then L := len(str) else L := R end i。 打 印 max(0,L - len(str)) 个 空白 符 ， 后 
面 跟着 串 的 最 左 的 min(L,len(str)) 个 字符 。 
提供 了 下 列 字符 串 操作 : | 
59 CAT M := S1 和 S2 的 连接 ， 
其 中 Memory[Reg] 指 向 S1， 而 Memory[Reg + 1H8TFJS2 
61  BSUBSTR M := S 中 从 位 置 P 开 始 、 长 度 为 L 的 子 串 的 复 本 。 
S 的 地 址 在 R 中 ，P 和 L 分 别 存储 于 





Memory(Reg + 1]fnMemory[Reg + 2] 中 。 

62 STEQ S1 在 Memory[R] 处 。 

if S1 = M (作为 字符 串 ) 

then PC := PC + 1; ( 跳 过 下 一 条 指令 ) 

end if 
63 STLSS 同上 ， 但 在 S1 «M (以 词典 序 ) 时 跳 过 下 一 条 指令 
下 列 硬 件 异 常 将 导致 Ada/CS 机 器 解释 器 返回 到 调用 程序 ， 并 将 作为 标志 的 负 值 放 人 Result 参 数 中 。 
一 1 无 效 指令 (0,9, 11, 25, 27, 29 或 45 ) 


-2 ”地 址 越界 

~3 E (实数 或 整数 ) 
-4 EF SS HBT 

-5 ”输入 文件 结束 

-6 RAR (实数 或 整数 ) 
-8 Kğ Ti 

-9 ”TRNG 指 令 失 败 

-10 ”无效 输入 项 


-11 EXP 的 第 二 个 操作 数 为 负数 

Ada/CS 机 器 解释 器 模拟 一 个 虚 所 计算机， 其 肉 存 为 MaxAdr + 1 个 字 的 数组 A 
Memory(0..MaxAdr) 表 示 。 为 运行 该 解释 器 ， 分 配 一 个 整数 数组 作为 机 器 的 模拟 内 存 ， 对 其 进行 适当 的 
初始 化 并 调用 外 部 过 程 | 

procedure interp(Store : in out Memory; LastAdr : in integer; 


InFile : in out text; PC, Time : in out integer; 
ReturnCode : out integer; Trace : in Boolean); 


其 中 
Memory : array (0..MaxAdn of integer; 


Memory: 模拟 的 内 存 。 
LastAdr: Memory 中 可 被 访问 而 不 会 导致 非法 地 址 错误 的 最 后 一 个 地 址 。 必 须 满足 LastAdr < 


MaxAdr。 
InFile: 一 个 打开 的 文件 ，Ada/CS 机 器 从 中 获得 (RDLN、RDCH 以 及 类 似 指令 的 ) 输入 。 
PC: 初始 的 程序 计数 器 (内存 中 将 被 执行 的 第 一 条 指令 的 地 址 )。 如 果 发 生 异 常 或 超级 用 
户 调用 (SVC) 指令 ， PC 将 指 问 该 指令 。 
Time: 时 间 限 制 。 每 次 执行 一 条 指令 时 ，Time 减 1。 当 Time = 0 时 ， 发 生计 时 器 中 断 H 
” ”PC 指向 将 被 执行 的 下 一 条 指令 )。 | 
Result: 返回 代码 : 如 果 Result>0， 则 Result 是 SVC 指 令 的 EAdr。 否则 ，Result 是 中 断 码 。 
Trace: 指出 一 全 应 当 产 生 指令 踪迹 。 o 
F3 其 他 实用 工具 


算术 例 程 : 
procedure integerop(Op : oper, A,B : integer; C : out integer; Flag : out status); 
procedure realop(Op : oper; A,B : real; C : out real; Flag : out status); 
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其 中 ， 


oper = (AddOper, SubOper, MulOper, DivOper); 
status = (OK, Overflow, Underflow, ZeroDivide); 


如 果 Flag = OK, 3452, C =A Op B. 
否则 ，C 的 值 是 不 可 预 油 的 。 
压缩 和 解压 缩 例 程 : 


function packinst(OpCode, Reg, Base, Offset : integer) return integer; 
procedure unpackin(inst : integer; OpCode, Reg, Base, Offset : out integer); 


对 于 压缩 ， 所 有 参数 都 被 截断 至 适当 的 长 度 。 对 于 解压 缩 ，Offset 是 以 符号 位 扩展 ， 其 他 所 有 参数 


MUST He 


function packchar(C1,C2,C3,C4 : char) return integer; 
procedure unpackch(n : integer; C1,C2,C3,C4 : out char); 


C1 处 于 字 的 高 端 (最 左 端 )，C4 处 于 低 端 (最 右 端 )。( 这 也 是 Ada/CS 机 器 所 期 望 的 顺序 。) 
忽略 强 类 型 检查 的 例 程 : 


function intcast(R : shortreal) return integer; 


. function realcast(! : integer) return shortreal; 
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